AI 산업의 지형이 급변하고 있다. 단순한 기대감을 넘어, 이제는 지속 가능한 수익 모델과 엄격한 성능 기준을 증명해야 하는 단계로 진입했다. 거품이 걷히고 실질적인 생존 경쟁이 시작된 셈이다.

이번 AX BRIEF에서는 업계를 재편하고 있는 재무 구조를 분석하고, 소프트웨어 신뢰도를 높이기 위해 개발자들이 성능 시험(evaluation) 과정을 어떻게 정교화하고 있는지 살펴본다. 또한, 최상위 언어 모델들이 가진 각기 다른 '창의적 문체'에 대한 논쟁도 다룬다. 전문적인 글쓰기에서 모델별로 뉘앙스와 톤을 어떻게 다르게 처리하는지 비교해 본다.

기술적 지표를 넘어 사람의 영역도 짚어본다. 개인 사용자와 거대 조직이 AI 도구를 실제 업무 흐름(workflow)에 적용하는 방식에서 나타나는 뚜렷한 격차를 분석한다. 주요 연구소의 수익성 지표를 추적하는 경영자든, 최신 AI 비서가 내 글쓰기 스타일에 어떤 영향을 주는지 궁금한 실무자든, 이번 리포트는 현재 AI 산업의 실체를 냉철하게 보여줄 것이다.

01오픈AI 재무 데이터 관리 — 수동 입력 대신 AI 추출과 인간 검수

재무 보고는 한 치의 오차도 허용되지 않는다. 최고재무책임자(CFO)에게 전달되는 잘못된 데이터는 전략적 판단 착오나 규제 위반이라는 치명적인 결과로 이어지기 때문이다. 기존의 방식은 비효율의 극치였다. 영업사원이 고객 관계 관리(CRM) 시스템에 매일 수동으로 데이터를 입력하면, 담당 직원이 이를 다시 내려받아 분석하며 유의미한 추세를 찾아내야 했다. 단순 반복 노동의 연속이었다.

오픈AI는 이 지루한 수동 입력 과정을 Codex로 대체했다. 영업사원의 기억력이나 성실함에 의존하는 대신, 고객 이메일과 Gong 전사 기록에서 필요한 정보를 AI가 직접 추출하는 식이다. 덕분에 영업팀의 행정 부담은 덜어내면서, 고객의 실제 반응과 제품 도입 현황을 더 입체적으로 파악할 수 있게 됐다. 다만 AI가 재무적인 미묘한 맥락을 오해할 가능성이 있어, 이 결과물을 경영진에게 곧바로 전달하지는 않는다. 효율은 높이되 맹신은 경계한 선택이다.

데이터 신뢰도를 확보하기 위해 오픈AI는 사람이 직접 개입하는 검증 방식(human-in-the-loop)을 도입했다. 내부 팀이 AI가 생성한 데이터를 일일이 검토해 정확성을 확인하는 단계다. 특히 엄격한 품질 보증 프로세스와 함께, 수치의 타당성을 극한까지 몰아붙이는 성능 시험(evals)을 통해 데이터가 상식적인 수준인지 검증한다. AI의 빠른 추출 능력에 인간의 최종 감독을 더해, 경영진 보고에 필요한 고정밀 데이터와 확장성을 동시에 잡았다.

02AI 요금제 — 지능의 가격 폭락과 이용료의 상승

개발자들이 AI 도구에 비용을 지불하는 방식이 근본적으로 바뀐다. GitHub Copilot이 예측 가능한 구독제에서 쓴 만큼 내는 사용량 기반 요금제로 전환한다. 6월 1일부터 매달 정해진 AI 크레딧을 제공하고, 이를 모두 소진하면 추가 구매를 해야 하는 방식이다. 가끔 사용하는 이들에겐 유리하겠지만, 대규모 프로젝트를 운영하는 팀에는 비용 예측 불가능성이라는 리스크를 안긴다. 많이 쓸수록 돈이 더 나가는 구조다.

아이러니한 점은 AI 생성 비용 자체는 계속 폭락하고 있다는 것이다. 최신 모델들의 운영 비용은 이미 극도로 낮아졌다. DeepSeek 같은 모델은 랜딩 페이지 하나를 통째로 만드는 복잡한 작업도 1센트(약 13원) 미만으로 처리한다. 지능을 구현하는 비용은 거의 공짜에 가까워지고 있지만, 인터페이스와 생태계를 쥔 플랫폼들은 헤비 유저로부터 더 많은 수익을 뽑아내기 위해 요금 체계를 바꾸고 있다. 지능은 싸지는데 이용료는 올라가는 역설이다.

이런 변화의 배경에는 천문학적인 하드웨어 비용이 있다. AI 인프라 부족 문제를 해결하기 위해 구글은 SpaceX와 대규모 임대 계약을 맺고 약 11만 대의 NVIDIA GPU를 확보했다. 한 달 임대료만 약 9억 2,000만 달러(약 1조 2,000억 원)에 달하는 규모다. 플랫폼들이 정액제에서 벗어나는 이유가 여기 있다. 모델의 내부 설정값을 공개하는 가중치 공개 모델(open-weight models)조차 수익 보호를 위해 상업적 이용을 제한한다. 성능이 뛰어난 MiniMax M3가 비상업적 라이선스를 채택해 기업의 영리 목적 사용을 막는 것이 대표적이다. 결국 막대한 컴퓨팅 비용은 기업 고객의 몫이 된다.

03클로드와 ChatGPT, 누가 더 사람처럼 글을 쓸까?

사용자들은 클로드가 ChatGPT보다 훨씬 사람답게 글을 쓴다고 느낀다. 별도의 설정 없이도 기계적인 느낌이 적고, AI가 썼다는 티가 덜 나기 때문이다. 이런 자연스러움은 복잡한 결과물에서도 드러난다. 특히 보고서나 웹 기반의 독립 실행 앱인 '아티팩트(artifacts)'를 만들 때 문맥의 연결이 매끄럽다. 사용자 입장에서 정보 과부하가 적으니, 문서나 앱을 만들 때 경쟁 모델보다 훨씬 직관적이라는 평가를 받는다.

이런 일관성과 개인화된 톤을 유지하기 위해 두 모델은 '꿈꾸기(dreaming)' 메커니즘을 활용한다. 밤사이 시스템이 최근 대화 내용을 복습하며 위키(wiki) 형태의 문서 구조를 업데이트하는 과정이다. 이를 통해 AI는 사용자 맞춤형 정보를 더 효율적으로 정리하고 찾아낸다. 클로드는 여기서 더 나아가 스스로 과업을 수행하는 자율형 시스템(autonomous systems)으로 가는 경로를 제시한다. 일반 인터페이스에서 시작해 범용 업무를 돕는 '클로드 코워크(클로드 co-work)'를 거쳐, 앱을 직접 구축하는 '클로드 코드'로 확장하는 식이다. 단순한 질문자에서 매일 함께 고민하는 '사고 파트너'를 만들고, 결국 인간의 개입 없이 돌아가는 시스템의 설계자가 되는 과정이다.

글쓰기 스타일은 다르지만, 내부 개발 시스템은 점점 서로 비슷해지고 있다. 클로드 코드와 Codex 모두 컴퓨터 폴더 내에서 작업하고 공유 컨텍스트 파일을 사용하는 등 기본 원리가 같다. 특히 모델 컨텍스트 프로토콜(MCP) 덕분에 외부 서비스와의 연결성이 극대화됐다. 지메일, 슬랙, 스트라이프 같은 도구들을 AI에 직접 통합할 수 있게 된 것이다. 일례로 Zapier MCP를 쓰면 AI 플랫폼을 9,000개가 넘는 앱과 연결할 수 있다. 도구 간 경계가 사라지자 기업들은 이제 'AI 활용 능력(AI fluency)'에 집중한다. 호주 커먼웰스 은행(Commonwealth Bank of Australia)이 직원 5만 명에게 ChatGPT Enterprise를 보급해 부정 결제 탐지부터 고객 서비스까지 실무 전반에 AI를 심은 이유다.

04무신사의 개발자 평가법 — 코드 결과보다 AI 제어 능력에 집중

기업이 소프트웨어 엔지니어를 채용하고 평가하는 기준이 '결과물'에서 '사고방식'으로 옮겨가고 있다. 그동안 기술력의 척도는 복잡한 문제를 해결해 낸 최종 코드였다. 하지만 AI가 코딩의 기본 도구가 되면서, 단순히 정답을 내놓는 능력으로는 실력 있는 개발자와 평범한 개발자를 구분할 수 없게 됐다. 후보자가 AI 프롬프트만으로 코딩 테스트를 통과한다면, 그 결과물은 더 이상 개발자의 실제 역량이나 이해도를 증명하지 못한다. 정답의 가치가 사라진 시대다.

무신사는 결과보다 AI를 제어하는 과정에 집중해 평가 기준을 바꿨다. 전앤드류 CTO는 개발자의 진짜 가치가 문제를 정의하는 구조, AI에게 내리는 지시의 정밀함, 그리고 결과물을 철저하게 검증하는 능력에 있다고 강조한다. 이를 통해 AI를 정교한 도구로 부리는 'A타입' 개발자와 AI에 맹목적으로 의존하는 'C타입' 개발자를 가려낸다. 후자의 경우 기술적 리스크가 숨어 있을 가능성이 크다. 코드 생성부터 제출까지의 시간이 지나치게 짧다면, 사람이 제대로 검토하지 않고 그대로 승인했을 확률이 높기 때문이다. 겉으로는 생산성이 높아 보이지만 실제로는 매우 취약한 구조다. 맹목적인 AI 의존은 곧 기술적 부채다.

이는 산업혁명 당시 증기기관이 전기 모터로 대체되던 과정과 닮았다. 초기 공장들은 공장 배치(layout)는 그대로 둔 채 엔진만 모터로 바꿨고, 그 결과는 미미했다. 진짜 생산성 폭발은 모터의 특성에 맞춰 공장 전체의 설계를 다시 했을 때 일어났다. 무신사는 기존의 업무 흐름(workflow)에 AI를 단순히 추가하는 것만으로는 부족하다고 본다. 진정한 생산성 도약을 위해서는 업무를 더 작은 단위로 쪼개고, 단순한 코딩 행위보다 인간의 검증과 전략적 문제 해결을 우선시하는 조직 평가 시스템을 다시 설계해야 한다.

05혼자 쓰는 AI, 거대한 시스템 — 그 사이를 채울 '팀 전용 AI'

기업들의 AI 도입 방식은 현재 극단적으로 나뉘어 있다. 직원은 개인 생산성을 높이려 챗봇을 쓰고, 회사는 고객 서비스나 상담 제품을 통째로 바꾸기 위해 거대한 시스템을 위에서 아래로 내려찍듯 구축한다. 정작 팀이나 부서가 함께 협업하며 사용하는 중간 단계의 자동화는 비어 있다. 오픈AI는 이 공백을 메우기 위해 '워크스페이스 에이전트'를 내놓았다. 이제 AI는 개인의 도구를 넘어 팀 전체의 업무 흐름(workflow) 속으로 직접 들어온다. 개인과 조직, 그 사이의 끊어진 연결고리를 잇겠다는 전략이다.

이는 단순한 제품 전략이 아니라 오픈AI가 내부적으로 일하는 방식 그 자체다. 재무 조직을 보면 소프트웨어 부서 간의 벽을 허물고 엔지니어를 재무 기술 부문에 직접 배치했다. 기술 인력이 재무 전문가와 나란히 앉아 일하며 '미래형 재무팀'을 설계하는 식이다. 이렇게 해야만 기술적으로 훌륭한 도구를 넘어, 실제 현장의 재무 전문가들이 겪는 운영상의 갈증을 정확히 해결하는 솔루션이 나온다. 현장 없는 기술은 무용지물이라는 판단이다.

구조적 변화를 넘어 'AI 마인드셋'이라는 문화적 전환도 꾀하고 있다. 모든 복잡한 문제 앞에서 AI를 가장 먼저 찾는 '1차 방어선'으로 삼는 습관이다. 어려운 과제가 주어지면 "어떻게 해결할까"가 아니라 "ChatGPT가 이 일을 어떻게 단순화할 수 있을까"를 먼저 묻는다. 도구의 접근성을 높여 수동으로 일하던 관성을 AI 기반의 문제 해결 방식으로 완전히 바꾼 것이다. 이제 AI는 가끔 쓰는 부가 기능이 아니라, 모든 비즈니스 문제를 바라보는 기본 렌즈가 됐다. 일하는 방식의 기본값이 바뀌었다.