AI 효율성 높였더니 비용은 더 늘었다 — 제번스의 역설이 불러온 AI 도입의 함정

AI의 지형이 빠르게 재편되고 있다. 추론 능력의 진화와 창작 도구의 발전, 그리고 경제적 효율성 확보라는 세 가지 축을 중심으로 변화의 속도가 빨라지는 양상이다.

최근 최신 GPT 모델이 복잡한 문제 해결 능력에서 새로운 기준점을 제시하며 엔지니어링 성능의 이정표를 세웠다. 동시에 구글의 Omni 플랫폼은 영상을 반복적으로 수정하며 완성도를 높이는 유연한 생성 방식을 선보였다.

기술적 도약을 넘어, AI 효율성과 기업 수요 사이의 기묘한 충돌에도 주목해야 한다. 자동화 비용이 낮아질수록 오히려 전체 자원 사용량이 늘어나는 '제본스의 역설(Jevons' Paradox)' 현상이 나타나고 있기 때문이다. 효율이 높아질수록 수요가 폭발하며 더 많은 자원을 집어삼키는 구조다. 효율의 역설이다.

이와 함께 새로운 업무 흐름(workflow) 자동화 시스템이 소프트웨어 작업 관리 방식을 근본적으로 바꾸고 있다. 특히 특정 분야에 최적화된 소형 전문 모델들이 거대 범용 모델의 독주 체제에 균열을 내기 시작했다.

더 빠르고 신뢰할 수 있는 자율형(agentic) 도구를 구현하려는 시도와 오픈 웨이트(open-weight) 모델의 전략적 배포는 AI 생태계가 점차 세분화되고 전문화되고 있음을 보여준다. 이제 AI는 단순한 성능 시험(benchmark) 단계를 넘어, 실제 전문 업무 흐름과 기업 전략의 핵심으로 빠르게 스며들고 있다.

01구글 Omni, 처음부터 다시 찍지 않고 부분만 고치는 영상 제작

구글 Omni가 영상 제작 방식을 완전히 바꾸고 있다. 이제는 처음부터 다시 만드는 대신, 이미 생성된 영상에 수정을 더해 완성도를 높이는 '반복 제작'이 가능하다. 프롬프트 하나에 매달릴 필요 없이, 결과물을 다시 모델에 넣어 텍스트를 추가하거나 날씨를 바꾸는 식이다. 이제 영상 제작은 '생성'이 아니라 '수정'의 영역이다. 환경과 카메라 제어도 정교해졌다. 구글 맵의 특정 장소 스크린샷을 올리면 1인칭 주행 영상의 배경이 즉시 바뀌면서도 시점은 그대로 유지된다. 이미지 위에 화살표를 그려 카메라 경로를 지정하면 드론이 촬영한 듯한 매끄러운 움직임이 구현된다. 움직이는 물체에 딱 붙어 있는 3D 텍스트 라벨까지 만들어낸다.

영상 너머의 경쟁은 이제 복잡한 소프트웨어 프로젝트를 스스로 관리하는 자율형 코딩 에이전트(coding agents)로 옮겨갔다. 최근 성능 시험 결과, GPT 5.5가 가장 일관된 성능을 보이며 전체적인 코딩 능력과 버그 수정(debugging) 신뢰도에서 앞서나갔다. 하지만 개발 단계마다 강점은 다르다. GPT 5.5가 기능적 안정성에 강하다면, 클로드 Opus 4.8은 프론트엔드 디자인에서 압도적이다. 색상 선택이나 간격, 시각적 계층 구조를 더 세련되게 잡아내기 때문이다.

효율을 극대화하려면 이제 여러 모델을 섞어 쓰는 작업 흐름(workflow)이 필수다. 제미나이 3.5 Flash로 빠르고 저렴하게 초안을 잡고, 클로드 Opus 4.8로 사용자 인터페이스(UI)를 다듬은 뒤, 마지막으로 GPT 5.5를 통해 내부 기능 최적화와 코드 정리를 마무리하는 식이다. 단일 모델의 시대는 끝났다. 이제는 적재적소에 모델을 배치하는 설계 능력이 핵심이다. 단순한 챗봇을 넘어 전문적인 파이프라인으로 진화한 배경에는 'AI 에이전트' 개념이 있다. 이는 거대언어모델(LLM)의 추론 능력에 메모리, 보안, 도구 실행을 관리하는 검증 장치(harness)를 결합한 형태다. 덕분에 AI는 단순 대화를 넘어 기업의 전체 소프트웨어 저장소(repository)를 다루는 실무 과제를 수행할 수 있게 됐다.

02클로드 — 단순 채팅을 넘어 반복 업무를 수행하는 자동화 허브로

클로드가 단순한 대화형 비서를 넘어, 복잡하고 반복적인 비즈니스 운영을 관리하는 생산성 허브로 진화하고 있다. 핵심은 '스킬(skills)'이다. 텍스트 파일에 저장해 두고 언제든 다시 꺼내 쓸 수 있는 작업 흐름(workflow)을 말한다. 사용자가 스킬의 목적과 세부 단계를 정의해 두면, 클로드는 송장 발행, 계약서 검토, 프론트엔드 디자인 같은 특정 업무를 학습해 필요할 때마다 즉시 수행한다. 여기에 구글 드라이브, 슬랙(Slack), 스트라이프(Stripe), 램프(RAMP) 등 수백 개의 외부 앱과 연결되는 전용 커넥터가 더해져 AI가 사용자를 대신해 직접 행동한다. 이제 AI는 답만 주는 게 아니라 일을 직접 처리한다.

클로드의 영향력은 사용자 PC 내부까지 확장된다. '코워크(Co-work)' 기능을 통해 로컬 컴퓨터 폴더를 기본 작업 공간으로 활용하기 때문이다. 이 환경에서 클로드는 수식이 포함된 엑셀 시트나 서식이 지정된 파워포인트 같은 실제 파일을 직접 읽고 수정하며 생성한다. 로컬 환경에서 작동하므로, 데스크톱 앱만 켜두면 구글 애널리틱스 지표 추출이나 지메일(Gmail) 메시지 분류 같은 반복 작업을 매시간 또는 매일 자동으로 실행하도록 예약할 수 있다. 로컬의 매출 파일을 읽어 노션(Notion) 데이터베이스와 비교한 뒤, 그 요약본을 슬랙으로 전송하는 정교한 자동화 설계가 가능해진 셈이다. PC 속 파일과 외부 앱을 잇는 완벽한 가교가 됐다.

자동화 과정의 정확도를 높이기 위해 사용자는 프로젝트 루트 폴더에 'Claude.md'라는 제어 파일을 설정할 수 있다. 단순히 "무엇을 하라"는 지시를 넘어, 특정 폴더를 무시하거나 특정 방식의 코드 내보내기를 금지하는 '부정 제약 조건(negative constraints)'을 명시하는 방식이다. 이렇게 경계선을 명확히 그어주면 AI가 첫 시도에 정답을 맞힐 확률이 3~5배나 높아진다. 재사용 가능한 스킬, 로컬 파일 접근 권한, 그리고 엄격한 행동 제약이 결합하면서 클로드는 높은 신뢰도를 유지한 채 수 시간 분량의 단순 행정 업무를 처리해낸다. 단순 반복 업무의 시대가 저문다.

03AI 비용이 낮아질수록 수요는 왜 더 폭증할까?

기술이 저렴해지면 전체 지출이 줄어들 것이라는 생각은 직관적이다. 하지만 AI는 현재 효율성이 높아질수록 오히려 전체 수요가 늘어나는 '제본스의 역설(Jevons' Paradox)'을 일으키고 있다. 특정 AI 작업 비용이 낮아지면서, 과거에는 비용 부담 때문에 포기했던 사례들이 이제는 실행 가능한 영역으로 들어왔다. 이는 인간의 대체가 아니라, 결과물을 가이드하고 검증할 더 많은 인력이 필요함을 의미한다. AI는 중간 단계의 대량 처리(middle to middle)에는 능숙하지만, 전체 과정을 완결 짓는 실행(end-to-end)에는 여전히 한계가 있다. 결국 프롬프트를 짜고 최종 결과물이 사용자에게 실제 가치를 주는지 확인하는 인간의 역할은 더 중요해졌다. 인간의 대체가 아니라, 검증할 인력이 더 필요해진 것이다.

현재 AI 금융 지형은 극심한 가격 격차로 나뉜다. 클로드 4.8 같은 최첨단 모델은 100만 출력 토큰당 25달러를 받지만, 딥시크(DeepSeek) 같은 효율적 대안은 87센트에 불과하며 일부 오픈소스 모델은 30센트까지 떨어졌다. 이런 가격 붕괴는 대규모 확장을 가능케 한다. 개발자 피터 스타인버거(Peter Steinberger)는 한 달에 130만 달러의 토큰 비용을 쓰며 '소프트웨어 공장'을 구축했다. 단순히 코드 조각을 짜는 수준을 넘어, 코딩 과정 전체를 자동화하는 체계(framework)에 투자한 결과다. 그는 이를 통해 1만 개 이상의 이슈와 5천 건의 풀 리퀘스트(pull requests)를 처리했다. 가격 붕괴가 곧 규모의 확장으로 이어졌다.

하지만 모든 기업이 이런 잠재력을 수익으로 연결하는 것은 아니다. 우버(Uber)는 최근 토큰 사용량 증가가 소비자 기능의 뚜렷한 성과로 이어지지 않았다고 밝혔다. 결국 2026년 AI 예산 전체를 단 4개월 만에 소진했다. 반면 엔비디아(Nvidia)는 AI 컴퓨팅을 단순 비용 항목이 아닌 수익 창출 자산으로 재정의하고 있다. 데이터 센터를 디지털 지능을 생산하는 'AI 공장'으로 취급하며, 성능 지표를 단순 GPU 속도가 아닌 '와트당 토큰'과 '자율형 에이전트 처리량(agent throughput)'으로 옮겼다. 전력 단위당 생성되는 가치를 측정하겠다는 뜻이다. 이런 산업적 접근은 자율형 AI 공장(agentic AI factory)으로 설계된 베라 루빈(Vera Rubin) 시스템에서 극명하게 드러난다. 엔비디아가 케이던스(Cadence)와 협력해 하드웨어 칩 설계와 검증을 자동화하는 '슈퍼 에이전트'를 구축하는 것 역시 같은 맥락이다. 비용 센터에서 수익 센터로의 전환이다.

04GPT 5.5, 추론 점수 77.8점으로 클로드 Opus 4.8 압도

전문 소프트웨어 개발의 중심이 단순 코딩에서 '자율형 작업 흐름(autonomous workflow)'으로 이동하고 있다. 사람이 일일이 지시하지 않아도 AI가 스스로 조사하고, 코드를 짜고, 오류를 잡는 자율형 AI의 시대가 온 것이다. 오픈AI의 GPT 5.5는 바로 이 실무 요구사항에 최적화된 모델이다. 기존 모델들이 짧은 코드 조각을 만드는 수준에 그쳤다면, GPT 5.5는 데이터 분석부터 도구 활용, 실제 서비스에 바로 적용 가능한 코드 배포까지 개발의 전 과정을 책임진다. 이제 AI는 단순 보조 도구가 아니라 실무 책임자에 가깝다.

이런 성능 향상은 수치로 증명된다. 고도의 추론 모드에서 GPT 5.5는 추론 점수 77.8점을 기록하며, 복잡한 엔지니어링 작업에서 비용 대비 최상의 효율을 보여줬다. 특히 소프트웨어 엔지니어링 성능 시험인 'deep sui' 벤치마크에서는 클로드 Opus 4.8을 일관되게 앞섰다. Opus 모델의 최상위 버전인 'extra high'나 'max'조차 GPT 5.5의 코딩 능력을 넘어서지 못했다. 종합 점수 77.4점을 기록한 GPT 5.5의 진짜 강점은 모든 항목의 1위가 아니라, 특히 망가진 로직을 수정하는 작업 등 다양한 난제에서 보여준 압도적인 일관성이다. 결국 끝까지 제대로 작동하는 코드를 짜는 능력이 승부를 갈랐다.

현장의 변화는 이미 시작됐다. 일부 개발 팀은 기존에 쓰던 클로드를 버리고 GPT 5.5와 Codex 체제로 완전히 갈아타고 있다. 이는 최첨단 모델의 출시 방식이 바뀌고 있음을 시사한다. 1년에 한 번 거대한 모델을 발표하던 관행에서 벗어나, 이제는 지속적인 업데이트 주기(rolling update cycle)로 전환하는 추세다. 덕분에 거대한 프로젝트 구조를 이해하는 것과 같은 전문적인 작업 최적화가 훨씬 빠르게 이뤄진다. 개발자는 이제 기다릴 필요 없이 실시간으로 가장 진화한 추론 도구를 사용할 수 있게 됐다. 업데이트의 속도가 곧 경쟁력이 된 셈이다.

05세금 내고 월급 받는 AI — Opus 4.8이 만든 가상 경제 시험장

AI가 인간 사회의 예측 불가능함을 얼마나 잘 다루는지 측정하려면 단순한 질의응답 테스트로는 부족하다. 이를 해결하기 위해 Opus 4.8의 울트라 모드가 자율형 AI 에이전트(autonomous AI agents)의 성능 시험(benchmark)으로 활용될 정교한 가상 경제 시스템을 구축했다. 이 시뮬레이션은 디지털 개체들이 세금, 복지 제도, 실업 급여 같은 복잡한 사회 시스템 속에서 독립적으로 활동하는 살아있는 세계를 구현한다. 공급과 수요라는 경제 기본 원칙을 적용해, AI 모델이 현실 세계와 동일한 경제적 압박과 행정적 절차를 직접 겪게 만든 것이다. 단순한 답변 능력이 아니라 사회적 생존 능력을 보는 시험대다.

가상 경제의 세밀함은 놀라운 수준이다. 추상적인 개념을 넘어 개인과 기업의 구체적인 데이터까지 관리한다. 예를 들어, 부두 운전사인 '에이바 리드'라는 가상 인물의 시간당 급여, 집 주소, 정확한 근무 일정까지 기록한다. 출근 시간과 최근 월급 액수까지 실시간으로 추적한다. 개인뿐 아니라 기업의 재무제표와 기업 간 물자를 운송하는 물류 네트워크까지 포함되어 있다. 개발자들은 이를 통해 AI가 일상생활과 상거래의 사소하지만 결정적인 디테일을 어떻게 처리하는지 관찰할 수 있다. AI가 이제는 서류 작업과 물류 흐름까지 이해해야 하는 시대가 됐다.

이 자율 환경은 현재 GPT 5.5, Opus 4.7, Opus 4.8, 제미나이 3.1 Pro 등 주요 대규모 언어 모델들의 성능을 비교하는 데 쓰이고 있다. 개발 과정에서는 AI 도구 간의 전략적 역할 분담이 눈에 띈다. 시스템의 전체 구조를 설계하고 완성도를 높이는 작업에는 Opus 4.8이 투입되고, 빠른 반복 수정이 필요한 작업에는 비용 효율적인 제미나이 3.5 Flash가 활용된다. 이러한 하이브리드 작업 흐름(workflow)을 통해 고정밀 시뮬레이션을 빠르게 수정하고 테스트할 수 있으며, 결과적으로 어떤 모델이 복잡한 사회 구조 속에서 진정으로 자율적인 운영이 가능한지 명확히 가려낼 수 있다. 설계는 정교하게, 수정은 빠르게. AI가 AI를 테스트하는 최적의 조합이다.

06미니맥스 M3: 클라우드 의존 끝내고 자체 서버 운영 시대로

이제 사용자나 개발자가 외부 클라우드 기업에 매달리지 않고, 개인 하드웨어에서 직접 미니맥스 M3 모델을 돌릴 수 있게 된다. 모델이 정보를 처리하는 핵심 수치인 가중치(open weights)를 공개하기 때문이다. 가중치가 공개되면 누구나 모델을 자체 서버에 설치해 운영할 수 있다. 데이터 프라이버시를 완벽하게 통제하고, 특정 기업에 종속되는 위험을 줄이며, 폐쇄형 시스템에서는 알 수 없었던 내부 작동 방식을 투명하게 확인할 수 있다. 이제 AI의 주도권이 플랫폼에서 사용자로 넘어온다.

이번 공개는 약 10일 뒤, 상세 기술 보고서 발행과 함께 이뤄질 예정이다. 특히 미니맥스는 MSA 내부 문서까지 함께 공개하며 모델의 설계와 개발 과정을 가감 없이 보여줄 계획이다. 기술 분석가나 연구자들은 이제 기업이 내놓은 요약 발표 자료에 의존할 필요가 없다. M3를 만든 실제 엔지니어링 결정과 데이터 처리 방식을 직접 뜯어보며, 이 모델의 진짜 성능과 한계를 정밀하게 검증할 수 있게 된다. 단순한 성능 자랑이 아니라 증거를 내놓겠다는 전략이다.

물론 자체 서버를 구축할 인프라가 없는 사용자들을 위한 관리형 서비스(managed service)도 계속 제공된다. 현재는 토큰 기반의 구독제 형태로 M3 모델 제품군을 이용할 수 있다. 예를 들어 월 20달러 요금제를 쓰면 매달 약 17억 개의 M3 토큰을 사용할 수 있어, 직접 설치하기 전에 모델의 유용성을 미리 시험해 볼 수 있다. 편의성을 원하는 일반 사용자와 자율성을 원하는 전문 개발자 모두를 잡겠다는 계산이다. 진입 장벽은 낮추고 확장성은 극대화했다.

07제미나이 3.5 Flash, 속도와 비용은 잡았지만 자율 행동은 불안정

AI 모델을 선택할 때 응답 속도나 비용만 따지면 위험하다. 특히 AI가 스스로 판단해 움직여야 하는 자율형 작업에서는 치명적인 실패로 이어질 수 있다. 제미나이 3.5 Flash는 바로 이 속도와 비용 최적화에 올인한 모델이다. 초기 개발 단계에서 빠르고 저렴하게 여러 시도를 반복하려는 개발자에게는 강력한 무기가 된다. 하지만 효율성에 치중한 나머지, 자율형 능력(agentic capabilities)에서는 신뢰도의 공백이 생긴다. 여기서 자율형 능력이란 AI가 독립적인 작업자처럼 스스로 전략을 짜고, 문제를 추론하며, 다양한 도구를 활용해 기술적 오류를 수정하고, 복잡한 작업 흐름(workflow)을 중단 없이 완수하는 능력을 말한다.

제미나이 3.5 Flash를 깊은 추론이 필요한 복잡한 작업에 투입하면 성능이 급격히 떨어진다. 단계별 실행을 안정적으로 수행하는 대신, 틀린 정보를 사실처럼 말하는 환각 현상이 빈번하게 나타난다. 더 큰 문제는 일종의 '게으름'이다. 복잡한 지시사항을 끝까지 수행하지 않거나, 실행 도중 갑자기 멈춰버리는 식이다. 속도는 압도적이지만, 사람이 계속 옆에서 감시하며 수정하지 않으면 복잡한 프로세스를 처음부터 끝까지 믿고 맡길 수 없다는 뜻이다. 속도가 신뢰를 보장하지는 않는다.

기업과 개발자는 이 모델의 쓰임새를 명확히 구분해야 한다. 제미나이 3.5 Flash는 다양한 아이디어를 빠르고 저렴하게 검증하는 '빠른 실패(fail fast)' 단계에 가장 적합한 도구다. 하지만 AI가 독립적인 문제 해결사로서 움직여야 하는 최종 실행 단계, 즉 다단계의 복잡한 작업 흐름을 처리해야 하는 상황에서는 부적합하다. 일관성이 떨어지기 때문이다. 결국 속도와 비용을 얻는 대신, 고위험 자율 운영에 필수적인 깊은 신뢰성을 포기한 셈이다.