벤치마크 80% 돌파한 AI 에이전트, 이제 '지능' 아닌 '권한'이 돈 된다

발표에서 확인된 핵심 사실

"모델이 모든 기능을 직접 구현해버리면 내 서비스의 입지는 어떻게 될까?" 실무자들이 느끼는 불안의 실체는 측정 가능한 지능이 공용재(commodity)로 변하는 속도가 예상보다 훨씬 빠르다는 점에 있다. 이제 진정한 가치는 모델이 닿을 수 없는 '훈련 불가능한 영역'으로 이동하고 있다.

코딩 에이전트 Devin의 사례가 이를 증명한다. 출시 당시 13%였던 표준 벤치마크 해결률은 1년 반 만에 80%대 후반까지 치솟았다. 측정 가능한 영역부터 모델이 빠르게 잠식하고 있음을 보여주는 구체적인 수치다.

인프라 영역에서도 비슷한 흐름이 보인다. 토큰당 서빙 비용은 낮아지며 평준화되고 있지만, 실제 트래픽 상황에서의 신뢰성과 희소 컴퓨팅 자원에 대한 접근권은 여전히 차별화 요소다. 최상위 AI-native 기업들이 Baseten이나 Fireworks 같은 특정 서빙 플랫폼에 집중하며 안정성을 확보하는 이유다.

결국 가치는 '사적 정답'의 유무에 따라 갈리는 2x2 구도로 재편된다. 단순한 성능 지표 경쟁을 버리고, 도메인 내부에서 무엇이 좋은 답인지 정의하는 권한과 책임 구조를 설계하는 것이 실질적인 판단 기준이 됐다.

AI 모델이 훈련할 수 없는 '사적 정답'과 '권한 및 책임'

공들여 만든 기능이 모델 업데이트 한 번에 기본 기능으로 흡수되는 '얇은 래퍼'의 위기는 현실이다. 벤치마크 영역의 지능은 누구나 쓸 수 있는 공용재가 됐다. 이제 해자는 라이선스, 책임 소재, 권한(permission) 및 책임(accountability)처럼 모델이 학습 데이터로 습득할 수 없는 '훈련 불가능한 영역(untrainable)'에서 만들어진다.

비즈니스 모델도 이 지점으로 이동하고 있다. 시에라(Sierra)는 에이전트가 고객 문제를 완전히 해결(resolve)했을 때만 비용을 청구하며, 상담원에게 업무를 넘기면 과금하지 않는다. 코그니션(Cognition)의 데빈(Devin) 역시 소프트웨어 분야에서 성능 보장(performance guarantee)을 제시한다. 단순한 토큰 사용량이 아니라, 신뢰받는 시스템 내부에서 도출된 결과물에 가격을 매기는 구조다.

코딩 에이전트 도입으로 코드 작성량은 크게 늘었으나 실제

코드 작성 속도가 빨라졌다고 해서 제품 출시 속도가 비례해서 늘어나는 것은 아니다. MIT의 머트 데미러(Mert Demirer) 연구팀이 개발자 10만 명을 분석한 결과, 코딩 에이전트 도입 이후 코드 작성량은 약 180% 증가했지만 실제 배포량은 30% 증가에 그쳤다. AI가 초안을 잡는 속도는 비약적으로 빨라졌으나, 리뷰와 테스트, 배포 승인이라는 병목 구간은 여전히 인간의 판단과 책임 영역에 머물러 있기 때문이다.

모델의 절대적인 성능 우위가 곧바로 시장 점유율 승리로 이어지지도 않는다. 소비자 채팅 시장에서 지능 수치만으로 경쟁자를 압도해 이긴 사례는 없다. 최근 ChatGPT의 점유율 하락은 성능 부족이 아니라, 안드로이드(Android) OS와 검색(Search) 기반의 제미나이(Gemini)로 사용자가 이동한 결과다. 벤치마크 점수보다 사용자가 머무는 접점에 얼마나 깊게 통합되었는지가 실제 점유율을 결정한다.

결국 개발 현장과 시장 모두에서 단순한 생성 능력은 더 이상 독점적인 차별화 요소가 되지 못한다. 코드를 얼마나 많이 쓰느냐보다 어떻게 검증해 배포하느냐가, 모델이 얼마나 똑똑하느냐보다 사용자의 동선 어디에 배치되어 있느냐가 실질적인 임팩트를 만든다.

이제 벤치마크 해결률 80% 시대의 생존 전략은 단순한 'Eval(평가)' 경쟁을 버리는 것이다. 모델이 기능을 대체하는 속도가 빨라질수록, 우리 도메인에서 무엇이 정답인지 정의하고 그 결과에 책임을 지는 권한 구조를 누가 먼저 설계하느냐가 유일한 진입장벽이 된다.

벤치마크 80% 돌파한 AI 에이전트, 이제 '지능' 아닌 '권한'이 돈 된다

발표에서 확인된 핵심 사실

AI 모델이 훈련할 수 없는 '사적 정답'과 '권한 및 책임'

코딩 에이전트 도입으로 코드 작성량은 크게 늘었으나 실제

관련 기사