를 개발자 도구에서 기업용 운영 환경으로 확장하는 대규모

AI로 문서를 수정할 때마다 전체 내용이 다시 작성되어 기존 서식이 망가지는 불편함이 있었다. OpenAI는 이를 해결하기 위해 특정 영역만 수정하는 인플레이스 편집 도구 Annotations(어노테이션)와 기업용 웹 호스팅 기능인 Sites, 도메인별 워크플로우를 도입했다. 전문 프로그래밍 어시스턴트였던 Codex를 비즈니스 전문가의 일상적 운영 환경으로 전환하려는 전략이다.

주간 사용자 500만 명 중 금융 분석가, 마케터, 운영자, 연구원 등 비개발자 비중이 약 20%에 달한다. 이들의 기술 도입 속도는 전통적인 엔지니어보다 3배 빠르다. OpenAI는 이러한 사용자 추세를 활용해 Codex를 화이트칼라 업무 자동화를 위한 핵심 애플리케이션으로 포지셔닝하고 있다.

2026년 초 Claude Code, Codeex, Opus 4.5, GPT52 등의 모델이 결합하며 에이전트 시대가 시작되었다. 소프트웨어 엔지니어들이 에이전트 기반 코딩 도구를 메인스트림으로 사용하며 생성된 코드를 실제 프로덕션에 배포하기 시작했다. 지식 노동자들 또한 Openclaw, Hermes(에이전트 시스템 구축 도구)를 통해 더 복잡한 애플리케이션과 에이전트 시스템을 구축하고 있다.

Better DB(데이터베이스 캐싱 도구)의 시맨틱 히트 및 정확한 히트 기능을 적용하면 OpenAI API 호출 시 1,300개였던 토큰 사용량을 214개로 줄일 수 있다. Anthropic의 Claude 모델은 다중 요구사항이 포함된 프롬프트에서 일부를 누락하는 취약점을 보였으나, OpenAI 모델들은 프롬프트 준수 측면에서 더 일관된 성능을 유지했다. 다만 에이전트가 끊임없이 작동하며 발생하는 무한 백로그(Infinite Backlog) 현상은 사용자에게 새로운 형태의 압박감을 주고 있다.

기존 방식과 달라진 지점

AI가 문서를 수정하려면 전체를 다시 써야 한다는 생각은 이제 틀렸다. Annotations(특정 영역 지정 수정 기능)는 국소적 컨텍스트 범위 지정 방식을 도입했다. 기존에는 차트나 계산식 하나를 고칠 때 파일 전체를 다시 작성해야 했으나, 이제는 데이터 스키마를 매핑해 선택한 영역 내에서만 코드를 실행한다. 주변 셀의 의존성이나 스타일, 서식을 그대로 유지하며 시각화와 데이터를 생성할 수 있다.

토큰 기반 사용량 증가는 매출의 폭발적 성장으로 이어졌다. OpenAI는 연간 반복 매출(ARR) 300억 달러를 기록했다. Anthropic은 2025년 초 30억 달러였던 매출이 현재 연간 환산 매출 470억 달러까지 급증하는 성장세를 보였다. 사용량에 비례한 과금 구조가 모델 랩의 현금 흐름을 빠르게 바꿨다.

사업 도입 속도에서는 Anthropic이 OpenAI를 앞지르는 양상이다. RAMP(기업 지출 분석 플랫폼) 통계가 이를 뒷받침한다. 6,500만 달러 규모의 펀딩을 마감하며 기업 가치 1조 달러 미만을 기록했다. 대형 파운데이션 모델 랩 중 최초로 분기 흑자 달성을 예상하며, 막대한 지출 속에서도 수익성을 증명해 시장의 기대치를 재설정했다.

실제 업무 자동화 현장에서는 모델의 조합과 루프 구조가 핵심이다. AI 네이티브 기업 Every는 Codex와 Claude Code를 코딩과 디자인 등에 활용하며 신규 모델들을 출시 전 알파 테스트한다. 트레이딩 에이전트의 경우 메인 에이전트가 서브 에이전트의 JSON(데이터 교환 형식) 다이제스트를 입력받아 30초마다 의사결정을 수행한다. 설정된 수익 목표에 따라 리스크 조정 등의 결정이 달라진다.

기술이 실제로 작동하는 방식

트레이딩 전략 수정에 드는 리소스가 획기적으로 줄었다. 메인 에이전트인 Codex 5.5가 최종 의사결정을 내리고 서브 에이전트가 데이터를 모니터링해 전달하는 하트비트(heartbeat) 구조를 도입했다. 서브 에이전트가 수집한 데이터를 기반으로 메인 에이전트가 지속적으로 상황을 감시하며 새로운 결정을 내린다. 실시간 트레이딩 대응 체계를 자동화한 결과다.

DeepSWE(소프트웨어 엔지니어링 벤치마크) 측정 결과 GPT-5.5는 70%의 점수로 1위를 기록했다. GPT-5.4의 56%와 Opus의 54%를 앞선 수치다. 토큰 사용량과 처리 시간은 절반 수준으로 줄였고 비용은 3분의 1로 낮췄다. 반면 Kimi K 2.6은 24%, DeepSeek V4는 8%에 그치며 중국 모델들과의 격차를 벌렸다.

현업 담당자가 API 개발 없이 웹 앱을 배포하는 기준이 마련됐다. Snowflake(데이터 웨어하우스), Figma(디자인 도구), Salesforce(고객 관계 관리) 등 62개 비즈니스 앱과 110개 자동화 기술을 통합한 6종의 역할별 플러그인을 출시했다. Tableau(데이터 시각화), Canva(디자인 플랫폼), HubSpot(마케팅 자동화) 등이 포함된 부서별 번들이 제공된다. IT 부서의 별도 연결 작업 없이 다단계 워크플로우 자동화가 가능하다.

도입 비용에 대한 기업의 부담은 현실적인 제약이 됐다. 2025년 4분기 인프라 가치에 대한 거품 논란은 현재 비용 충격(sticker shock)이라는 실질적 부담으로 이동했다. 서비스는 월 20달러의 Plus 플랜, 월 100달러의 Pro 플랜, 또는 사전 구매 크레딧을 사용하는 종량제 모델로 제공된다. AI 도입의 관점이 효율성에서 비용 제약으로 전환된 모습이다.

현장에서 달라지는 비용과 판단

구독자 수를 늘리는 것만으로 AI 기업이 지속 가능한 성장을 이룰 수 있을까. OpenAI와 Anthropic은 수익 모델의 핵심 단위를 유료 사용자 수인 시트(seat)에서 API를 통한 토큰(token) 소비량으로 전환했다. 사용자 전환율에 의존하던 기존 방식과 달리 실제 API 소비량에 따라 매출이 결정되는 구조다. 시트 기반 모델이 가진 물리적 상한선을 제거해 폭발적인 매출 성장을 가능하게 했다.

단순히 프롬프트를 입력하고 답변을 기다리는 방식은 에이전트(Agent, 사용자를 대신해 과업을 수행하는 AI) 관리 체제로 바뀌고 있다. OpenAI의 Codex는 'Sites' 기능을 통해 정적 데이터나 문서를 대화형 웹 기반 내부 애플리케이션으로 변환하는 인터랙티브 캔버스를 제공한다. 비즈니스 및 엔터프라이즈 티어 사용자는 프론트엔드 개발 없이 보안 워크스페이스 URL을 생성해 공유할 수 있다. 정적 스프레드시트를 실시간 시나리오 플래너 웹 앱으로 변환해 경영진이 가정을 직접 수정하며 확인하는 방식이 가능하다.

모델의 성능 격차는 스스로 결과물을 검증하는 능력에서 갈린다. DeepSWE(소프트웨어 엔지니어링 벤치마크) 분석 결과, GPT-5.4와 Opus는 작업 중 테스트 코드를 작성해 검증하는 비율이 80%를 넘었다. 하위 모델들은 이 비율이 현저히 낮았다. 자기 검증 능력이 문제 해결 능력의 실질적인 차이를 만드는 핵심 요소다.

실제 현장에서는 직무의 경계가 무너지는 현상이 나타난다. Every(콘텐츠 플랫폼)의 사례를 보면 매니저가 직접 코드를 커밋하고 엔지니어가 고객과 직접 소통하는 역할 변화가 확인된다. 업무 이메일 응답의 95%를 AI가 처리하는 수준에 도달했다. AI 에이전트 활용이 조직 내 업무 성격을 바꾸고 있다.

데이터 커브(Data Curve)가 새로운 코딩 벤치마크

벤치마크 점수가 높다고 해서 실제 개발 현장의 복잡한 문제를 모두 해결하는 것은 아니다. 데이터 커브(Data Curve, AI 데이터 분석 기업)는 데이터 오염과 단순 작업 위주의 기존 평가 방식을 해결하기 위해 DeepSWE(딥에스더블유이, 코딩 벤치마크)를 출시했다. 프롬프트를 의도적으로 짧고 자연스럽게 유지하면서 해결을 위해 더 많은 코드를 작성해야 하는 실제 엔지니어링 작업과 유사한 과제로 구성했다.

AI 자동화 도구를 전면 도입한 기업에서도 인간의 노동 수요가 증가하는 현상이 나타난다. AI 자동화 기업 에브리(Every)는 코딩, 글쓰기, 디자인, 고객 서비스 전 영역에 Codex와 Claude Code를 적용했다. 하지만 여전히 작가, 편집자, 엔지니어를 고용하고 있으며 처리해야 할 인간의 업무는 오히려 늘어났다.

서브 에이전트가 메인 모델의 부하를 줄이기 위해 데이터를 선별 처리하는 계층 구조가 쓰인다. 서브 에이전트는 구조화된 출력에 최적화된 GPT 5.4 mini를 사용하여 웹소켓으로 S&P 500 10배 숏 레버리지 같은 포지션 데이터를 수집한다. 메인 모델에 전달하기 전 데이터를 마이닝해 토큰 소비를 줄인다. 일부 파워 유저가 한 달에 수억에서 수십억 개의 토큰을 소비하며 컴퓨팅 제약으로 인한 토큰 부족 현상이 나타나고 있으며, 기업들은 고비용 사용자를 더 이상 보조하기 어려운 비즈니스 모델의 변화를 겪고 있다.

동일한 질문에 반복적으로 지불하는 API 비용을 차단하는 캐싱 플랫폼이 도입된다. 베터 DB(Better DB, AI 앱 모니터링 및 캐싱 플랫폼)는 앱과 OpenAI 사이에 두 개의 캐시 층을 배치한다. 동일한 질문에 대해 반복적으로 비용을 지불하지 않도록 데이터를 저장하고 재사용하는 구조다.

AI로 문서나 엑셀을 수정할 때 전체 내용을 다시 작성해 서식이 망가지던 불편함은 Codex의 Annotations 기능으로 해결된다. 문서 전체 재생성 없이 특정 데이터 영역만 수정하는 국소적 컨텍스트 스코핑을 도입했기 때문이다.

62개 비즈니스 앱과 110개 자동화 스킬을 통합한 6종의 역할 기반 플러그인 구조는 이를 뒷받침한다. IT 부서의 API 개발 없이 현업 담당자가 데이터 대시보드나 시나리오 플래너를 웹 앱 형태로 즉시 배포하는 것이 가능해졌다. AI의 역할이 단순 생성을 넘어 기업용 인터랙티브 앱의 실시간 배포 도구로 전환되는 지점이다.