주간 사용자 500만 명 돌파한 Codex, 사무직 전용 도구로 기업 시장 정조준

사무직 업무 확장과 기업의 AI 투자 동향

데이터 분석, 크리에이티브 제작, 투자 은행 등 특정 직무 6개를 겨냥한 플러그인이 출시됐다. OpenAI가 Codex(코덱스, AI 코딩 도구)의 범위를 사무직 업무로 확장하며 통합 기능과 지침, 컨텍스트를 묶어 제공하기 시작했다.

결과물을 로컬 파일이 아닌 호스팅된 인터랙티브 웹사이트로 출력하는 Sites(사이트) 기능이 추가됐다. Wix(윅스), Figma(피그마), Replit(레플릿) 등과 파트너십을 맺어 구현했으며, 문서의 특정 부분을 지정해 정밀하게 명령하는 Annotations(어노테이션) 기능도 함께 도입했다. 챗봇 형태를 벗어나 웹사이트 출력과 문서 주석 처리라는 실무 워크플로우에 직접 결합한 결과다.

세계 최대 로펌 Kirkland & Ellis(커클랜드 앤 엘리스)는 자체 AI 플랫폼 구축에 5억 달러를 투자한다. 올해 1억 달러를 우선 지출하고 향후 3~4년간 투자를 지속하며, 이는 기존 서드파티 도구 라이선스 비용과는 별도로 책정된 금액이다. Harvey(하비) 같은 AI 기업이 루틴한 법률 업무를 자동화해 중개인을 배제하고 고객에게 직접 서비스를 제공할 위험에 대비한 움직임이다.

모델 개발사들은 추론 능력 향상과 연산 비용 절감에 집중하고 있다. GPT 5.6은 프론트엔드 생성 능력을 보완하고 토큰 효율적인 아키텍처를 목표로 한다. 일론 머스크는 Cursor(커서, AI 코드 에디터) 인수를 통해 Grok 5의 코딩 능력을 강화했다. Anthropic(앤스로픽)은 SpaceX(스페이스X)와 파트너십을 맺어 Opus 4.7의 연산 제약을 해결하고, 수주 내로 Mythos-class(미토스 클래스) 모델을 모든 고객에게 제공할 계획이다.

수익 모델의 전환과 에이전트 구조의 진화

AI 도구가 천문학적인 매출을 내는 사업 모델로 전환됐다. OpenAI는 연간 반복 매출(ARR) 300억 달러를 기록했다. Anthropic은 2025년 초 30억 달러였던 매출 규모를 현재 연간 환산 매출(annualized run rate) 470억 달러까지 끌어올렸다.

하나의 모델에 모든 일을 맡기던 방식은 메인과 서브 에이전트를 나누는 구조로 진화했다. Codex 5.5(메인 에이전트)가 의사결정을 내리면, GPT 5.4 mini(서브 에이전트)가 데이터를 모니터링해 JSON 요약본을 전달한다. 이 과정에서 GPT 5.4 mini가 구조화된 출력(structured outputs)을 처리해 메인 모델의 토큰 소모를 줄인다. DeepSeek의 효율적 아키텍처와 GPT 5.6의 토큰 효율성 개선 목표처럼 비용 절감이 핵심 경쟁 요소가 됐다.

범용 챗봇을 넘어 특정 기업의 내부 인프라에 AI를 직접 심는 시도도 늘고 있다. OpenAI는 40억 달러 이상의 자금을 조달해 기업 고객 전용 합작 투자사인 OpenAI Deployment Company를 설립했다. 로펌 Kirkland & Ellis는 180명의 외부 전문가를 투입해 파트너급 지식을 통합한 내부 전용 지식 베이스를 구축 중이다.

이러한 구조적 진화는 곧 출시될 차세대 모델들의 성능과 과금 방식에도 직접적인 영향을 미친다.

차세대 모델 출시 전망과 과금 체계의 변화

AI 기업의 핵심 경제 단위가 유료 사용자 수인 시트(seat)에서 API를 통한 토큰(token) 소비량 기반으로 전환됐다. OpenAI와 Anthropic은 유료 전환율이라는 한계를 넘어 실제 토큰 소비량에 따라 매출을 확장하는 구조를 택했다.

6월은 차세대 모델 출시가 집중되는 시기다. Polymarket(예측 시장)에 따르면 GPT 5.6 모델이 6월 9일에서 11일 사이에 출시될 가능성이 크며, 내부적으로 성능이 개선된 체크포인트가 확보됐다는 정보가 있다. Anthropic의 Mythos preview와 Google의 Gemini 3.5 Pro가 같은 달 출시를 앞두고 있어, OpenAI는 GPT 5.6과 GPT 5.6 Pro를 동시에 내놓으며 대응할 것으로 보인다.

모델의 지능 경쟁은 수치로 증명된다. Artificial Analysis Intelligence Index(AI 지능 지수)에서 Claude Opus 4.8은 이전 버전인 4.7보다 지능이 상승하며 세계에서 가장 지능적인 모델로 평가받았다. 효율성 측면에서는 Better DB(데이터베이스 캐싱 도구)를 통해 토큰 소비를 줄이는 시도가 이뤄진다. 실제 테스트에서 1,300 토큰이 소요되던 요청이 시맨틱 히트(semantic hits) 기능을 통해 214 토큰으로 감소했다.

이런 과금 체계의 변화는 전문직의 업무 방식까지 바꾼다. 루틴한 업무가 자동화되면서 법조계의 기존 청구 가능 시간(billable hours) 개념이 가치 기반 가격 책정(value-based pricing)으로 전환될 전망이다. Kirkland & Ellis는 이미 일부 업무에 가치 기반 가격 책정을 적용하고 있다.

개인용 AI 에이전트의 등장과 시장 점유율 경쟁

구글은 현재 내부 테스트(dogfooding) 단계에서 24/7 개인용 AI 에이전트 'Remy'를 시험 중이다. 이 도구는 Gmail, Docs, Calendar, Drive, Search 등 구글 생태계 전반에 통합되어 사용자의 선호도를 학습하고 배경에서 복잡한 워크플로우를 선제적으로 처리한다. 단순한 챗봇을 넘어 사용자를 대신해 실제 행동을 수행하는 디지털 비서의 형태다.

마운틴뷰의 Shoreline Amphitheater에서 5월 19일부터 29일까지 열리는 구글 I/O 2026 행사가 공개 시점이 될 가능성이 크다. 이번 행사는 Gemini와 Android 중심의 AI 혁신 기술에 집중하며, 준비 상태에 따라 Remy가 정식 공개될 것으로 보인다.

기업 시장의 주도권 경쟁은 수치로 나타난다. Anthropic은 6,500만 달러 규모의 펀드레이징을 마치며 기업 가치를 1조 달러 바로 아래 수준으로 평가받았고, 파운데이션 모델 랩 최초로 분기 흑자 달성을 예상하고 있다. RAMP 통계에 따르면 Anthropic이 2월 'Enterprise Agents' 프로그램과 5월 금융 특화 에이전트를 출시하며 비즈니스 도입 속도에서 OpenAI를 앞서고 있다.

실제 사용자 지표와 성능에서는 OpenAI가 우위를 점하는 모습이다. vidIQ 데이터 기준 Claude Code의 검색량은 880만에서 600만 미만으로 줄었으나, Codex는 180만에서 300만으로 증가했다. 코딩 인덱스에서도 GPT 5.5 extra high가 59점을 기록하며 Claude Opus 4.8의 56.7점을 앞선다.

시장 점유율 경쟁이 치열해지는 가운데, 실제 사용자 지표와 모델의 실질 성능에 대한 검증 작업도 병행되고 있다.

사용자 층의 확대와 모델 성능의 실질적 검증

AI 코딩 도구는 개발자만 쓴다는 상식이 깨졌다. Codex의 주간 활성 사용자(WAU) 수는 500만 명을 넘어섰다. 지난 2월 데스크톱 앱 출시 이후 사용자가 6배 이상 급증한 결과다. 개발자가 여전히 최대 사용자 그룹이지만, 지식 노동자가 전체의 20%를 차지하며 성장 속도는 다른 그룹보다 3배 이상 빠르다.

업데이트 속도가 성능의 정비례를 의미하지는 않는다. Anthropic은 Claude Opus 4.7 출시 6주 만에 Claude Opus 4.8을 내놓았으나, CursorBench와 보안, 리팩토링, BridgeBench(디버깅 벤치마크) 등 여러 테스트에서 이전 버전보다 성능이 떨어지는 회귀 현상이 나타났다. 라바 램프 테스트에서도 실패했다.

비용에 대한 기업의 시각도 현실적으로 변하고 있다. 폭발적 성장 이후 AI 도입 비용에 놀라는 스티커 쇼크(sticker shock) 현상이 나타나며 시장은 제약의 시기로 접어들었다. 다만 토큰 기반의 막대한 매출 수치가 확인되며 AI 거품론에 대한 시장의 시각이 재조정되고 있다.

특정 목적을 위한 최적화 경쟁은 계속된다. AI Arena(외부 테스트 플랫폼)에 등장한 Gemini 3.2 Flash는 AI Studio의 Gemini 3 Flash보다 SVG 생성 성능이 더 강력한 것으로 나타났다. 트레이딩 시스템에서는 30분 내 1달러 수익 같은 구체적인 목표를 설정해 리스크를 조정하는 하트비트 기반 의사결정 방식이 도입되고 있다.

단순한 채팅이나 코드 작성 도구로 AI를 활용하던 단계는 끝났다. Codex의 주간 활성 사용자(WAU)가 500만 명을 돌파하고 사무직 사용자 성장 속도가 개발자보다 3배 빠르게 나타난 점이 그 근거다. 투자 은행과 제품 디자인 등 특정 직무의 통합 환경과 지침을 묶어 제공하는 6종의 플러그인 구조가 실무 진입 장벽을 낮췄다.

이제 AI 에이전트의 효용은 챗봇의 유창함이 아니라 웹사이트 출력이나 문서 주석 처리 같은 구체적인 워크플로우 결합력으로 판가름 난다. AI의 가치는 이제 대화의 기술이 아니라 직무의 완결성으로 결정된다.