미니맥스 M3 등장, 기업용 AI 에이전트 시장 흔든다

AI 시장의 판도가 급변하고 있다. 고성능 모델과 기업용 도구가 쏟아지면서, 이제 기업의 관심은 단순한 도입을 넘어 '비용 효율'과 '실제 업무 흐름(workflow)'의 최적화로 옮겨갔다. **실용주의 시대로의 전환이다.**

이번 주에는 업계 선두 주자들을 위협하는 '가성비' 고성능 모델들의 등장과, 복잡한 업무를 효율적으로 처리하기 위한 기업 전용 서비스로의 전략적 이동을 분석한다.

인프라를 바라보는 관점의 변화는 자동화 시스템의 신뢰도와 직결된다. 특히 대규모 시스템 도입 시 발생하는 리스크를 제어하기 위한 새로운 안전 규격들이 빠르게 적용되는 추세다.

이제 논의의 중심은 기술적 성능 지표(benchmark)가 아니라 실질적인 투자 대비 효과(ROI)로 옮겨갔다. 업계 거물들조차 현재의 막대한 지출이 과연 재무적으로 지속 가능한지에 대해 의문을 던지기 시작했다. **거품이 걷히고 숫자가 중요해진 것이다.**

사용한 만큼 내는 과금 체계의 도입과 전문 소프트웨어용 창작 플러그인의 등장은 하나의 명확한 방향을 가리킨다. AI 산업이 '실험적인 기능 구현'의 단계를 지나 효율성과 안전성, 그리고 측정 가능한 비즈니스 가치를 창출하는 단계로 진입했다는 점이다.

최신 코딩 방식의 변화부터 토큰 공급량에 영향을 미치는 정부 규제까지, 지능형 시스템의 개발과 배포 환경을 바꾸고 있는 핵심 업데이트들을 정리했다.

01AI가 수백 명의 몫을 동시에 — 클로드 코드의 자율 작업 방식

AI 코딩 시장의 판도가 바뀌었다. Artificial Analysis에 따르면 클로드 Opus 4.8이 종합 성능 1위에 올랐다. 하지만 고난도 소프트웨어 엔지니어링 영역에서는 여전히 격차가 존재한다. 재활용 데이터 없이 장기적인 엔지니어링 과제를 수행하는 DeepSWE 벤치마크에서 GPT 5.5는 70%의 성공률을 기록하며, 58%에 그친 Opus 4.8을 앞섰다. 비용 효율성 역시 GPT 5.5가 압도적이다. 작업당 약 6.6달러가 드는 GPT 5.5와 달리 Opus 4.8은 12.58달러가 소요된다. 결국 개발자는 범용적인 클로드와 정밀하고 경제적인 GPT 사이에서 전략적 선택을 해야 한다. 효율과 성능의 저울질이 시작된 셈이다.

대규모 프로젝트 관리의 한계를 넘기 위해 클로드 코드는 '다이내믹 워크플로우(Dynamic Workflows)'와 '울트라 코드(Ultra Code)'를 도입했다. AI가 수십, 수백 개의 자율형 보조 에이전트(sub-agents)를 동시에 가동해 코드베이스 전체를 옮기는 식의 거대 작업을 수행하는 방식이다. 예를 들어 수십 명의 에이전트를 투입해 1,500개의 이전 대화 기록을 분석하고, 이를 바탕으로 맞춤형 사용 보고서와 튜토리얼을 만들어낼 수 있다. 정보 수집부터 고강도 추론, 코드 수정, 최종 테스트까지 모든 과정을 동시에 처리한다. 다만 그만큼 자원 소모가 막대하다. 복잡한 작업의 경우 한 번에 최대 260만 토큰을 소비하기도 한다. 성능을 위해 비용을 쏟아붓는 구조다.

복잡성이 높아지면 AI가 거짓 정보를 만들어내는 환각 현상이 발생하기 쉽다. 이를 막기 위해 클로드는 구조화된 '딥 리서치(Deep Research)' 파이프라인을 활용한다. 단순 검색에 그치지 않고 자료 수집, 교차 검증, 최종 확인의 단계를 거쳐 답을 내놓는 방식이다. 토큰 낭비를 줄이고 성능을 최적화하려면 상위 지침 설계(meta-prompting) 기법이 권장된다. 목표를 설정할 때 구체적인 배경지식과 매핑 규칙, 명확한 합격 기준을 함께 제공하는 것이다. 이렇게 하면 작업 완료율을 획기적으로 높일 수 있다. 결국 이 모든 도구는 성능, 속도, 비용이라는 세 마리 토끼를 잡기 위한 치열한 절충안이다.

02MiniMax M3 — GPT 5.5 대신 쓰는 초저가 AI의 명암

MiniMax M3는 절대적인 정확도보다 비용 효율을 중시하는 사용자를 겨냥했다. 입력 토큰 100만 개당 30~60센트라는 공격적인 가격을 책정했는데, 이는 신뢰도를 낮추는 대신 접근성을 높이는 중국 AI 모델들의 전형적인 전략이다. 대량의 작업을 저렴하게 처리하기에는 매력적이지만, GPT 5.5 같은 최상위 모델에 비해 결과값이 일정하지 않다는 치명적인 리스크가 있다. 가성비와 신뢰도의 맞교환이다.

이전 버전인 M2.7에서 M3로 넘어오며 보여준 기술적 도약은 미미하다. 복잡한 작업 수행 능력을 측정하는 SuiteBench 시험에서 Verified 세트는 0.6점, Pro 세트는 2.8점 상승하는 데 그쳤다. 한 번에 처리할 수 있는 정보량(context window)은 20만 5천 토큰에서 100만 토큰으로 대폭 늘렸지만, 세부 사항을 놓치는 고질적인 문제가 여전하다. 실제로 간단한 음향 효과를 넣으려다 기존의 '눌러서 말하기' 기능이 망가지는 등, 새로운 기능을 넣을 때 기존 기능이 함께 무너지는 오류(regression bugs)가 빈번하게 발생했다. 덩치는 커졌지만 정교함은 그대로다.

신뢰성 문제는 있지만, MiniMax M3에는 GPT 5.5나 클로드 Opus에는 없는 강력한 무기가 있다. 바로 비디오 데이터를 직접 처리하는 방식(native video modality)이다. 영상을 직접 분석할 수 있다는 점은 독보적이지만, 사용하는 도구에 따라 이미지나 PDF만 인식하는 등 인터페이스 제약이 따른다. 환각 현상(hallucination) 테스트에서는 때때로 GPT 5.5를 앞설 만큼 준수한 성능을 보였으나, 기존 코드를 효율적으로 개선하는 리팩토링(refactoring) 같은 전문 영역에서는 최하위권에 머물렀다. 결국 M3는 낮은 비용과 특수한 영상 처리 능력을 위해 간헐적인 오류를 감수할 수 있는 사용자에게만 유용한 도구다. 틈새시장을 노린 가성비 전략일 뿐이다.

03거대 모델 하나면 충분할까? 구글식 '분산 설계'가 AI의 답이 될까?

고신뢰 시스템은 역설적으로 불완전한 부품들을 모아 만든다. 구글이 개척한 이 방식의 핵심은 대규모 환경에서 하드웨어 고장은 피할 수 없는 필연이라는 가정이다. 전선은 마모되고 하드디스크는 뻗으며 메인보드는 과열된다. 구글은 고장 나지 않는 특수 장비를 찾는 대신, 전원 공급 장치나 오류 수정 메모리조차 없는 일반 소비자용 PC를 활용했다. 개별 부품의 완벽함이 아니라 전체 시스템 구조에서 안정성을 확보한 것이다. 부품의 무결성보다 시스템의 회복력에 집중했다.

이러한 설계 철학이 이제 AI 에이전트 구조에 적용되고 있다. 특히 실시간 금융 모니터링처럼 복잡한 작업에서 두드러진다. 모든 세부 사항을 처리하는 거대 모델 하나에 의존하는 대신, 계층 구조를 설계하는 방식이다. 메인 에이전트가 상위 수준의 의사결정을 내리면, 반복적이고 전문적인 세부 작업은 작은 하위 에이전트들이 나누어 처리한다. 구글의 인프라 방식과 같다. 개별 요소의 능력이 제한적이더라도 전체 시스템은 흔들림 없이 작동한다. 덩치 큰 모델 하나보다 잘 짜인 조직이 더 강하다.

실시간 시장 데이터를 감시하는 트레이딩 시스템이 대표적인 사례다. 이 시스템에는 '거래 데이터 보고'라는 특수 임무를 수행하는 하위 에이전트가 배치된다. 이 에이전트는 GPT 5.4 mini 같은 빠르고 효율적인 모델로 구동되며, 실시간 데이터 전송 방식(websocket)으로 쏟아지는 끊임없는 정보 흐름을 처리한다. 메인 에이전트에게 가공되지 않은 소음 섞인 데이터를 그대로 던지는 것이 아니라, 핵심 사실만 추려 구조화된 데이터 요약본(JSON digest)으로 압축한다. 이 요약본이 30초 단위의 상태 확인 주기(heartbeat loop)를 통해 메인 에이전트에게 전달되면, 메인 에이전트는 정제된 팩트를 기반으로 정확한 판단을 내린다. 소음은 거르고 핵심만 전달하는 필터링 구조다.

이런 계층적 분업은 운영 효율을 극적으로 높인다. 데이터 수집과 보고 단계에 작은 모델을 배치함으로써 데이터 처리 비용인 토큰 비용(token costs)을 획기적으로 줄일 수 있다. 가장 비싸고 똑똑한 모델은 복잡한 추론에만 집중하게 하고, 단순 반복 작업은 전문화된 작은 모델들이 처리하는 식이다. 모든 부품을 고가의 범용 모델로 채울 필요 없이, 안정적이면서도 비용 효율적인 파이프라인이 완성된다. 효율과 성능, 두 마리 토끼를 잡는 최적의 설계다.

04제미나이 3.5 플래시, 비용은 깎고 시각 정보로 정확도 높인 실전 효율

복잡한 업무를 스스로 수행하는 자율형 AI(AI 에이전트)를 구축할 때 가장 중요한 것은 성능, 속도, 그리고 비용 사이의 치열한 줄타기다. 이제 개발자의 고민은 단순히 '가장 똑똑한 모델'을 찾는 것이 아니라, 제품의 사업성을 확보하기 위해 이 세 가지 요소의 최적 지점을 찾는 것으로 옮겨갔다. 이런 흐름 속에서 제미나이 3.5 플래시는 매우 강력한 대안이 됐다. 최상위 수준에 근접한 성능을 내면서도 개발자가 체감하는 비용 부담은 획기적으로 낮췄기 때문이다. 사업성의 핵심은 결국 가성비다.

실제 서비스 환경에서는 단순히 토큰(모델이 처리하는 텍스트 최소 단위)당 비용을 따지기보다 '지능 단위당 비용'을 최적화하는 것이 핵심이다. 운영 원칙은 명확하다. 제미나이 3.5 플래시나 Deepseek V4 Pro 같은 저렴한 모델이 결과물의 품질과 외부 도구 호출 정확도(tool-calling accuracy)를 동일하게 유지할 수 있다면, 당연히 이들을 우선 선택해야 한다. 이렇게 비용을 아끼면 엔지니어는 마크다운(Markdown)이나 HTML 같은 출력 형식을 세밀하게 조정해, 신뢰성을 해치지 않으면서도 토큰 하나하나의 효율을 극대화할 수 있다. 똑똑함보다 중요한 것은 효율적인 똑똑함이다.

비용 절감을 넘어, 이제 AI는 텍스트와 이미지를 동시에 처리하는 다중 모드 계획(multimodal planning) 단계로 진화하고 있다. 제미나이 3.5 플래시를 GPT Image 2와 결합하고, 내장된 이미지를 반드시 읽도록 지침을 설정하면 '시각적 명세서'를 활용할 수 있게 된다. 자율형 AI가 실제 작업을 시작하기 전, 사용자 인터페이스(UI)나 설계 도면 같은 풍부한 시각 자료를 먼저 분석하는 방식이다. 텍스트 설명에만 의존하던 기존 방식과 달리, 시각적 요구사항을 직접 해석해 계획에 반영함으로써 실행 정확도를 비약적으로 높일 수 있다. 이제 AI는 읽는 것을 넘어 보고 계획한다.

05속도만 쫓는 AI 배포, 뚫려버린 사용자 보안

내 잘못이 없는데도 디지털 세상에서 쫓겨나는 사용자가 늘고 있다. 플랫폼들이 새로운 AI 기능을 서둘러 출시하며 업데이트 속도를 지나치게 높인 결과, 치명적인 보안 허점이 그대로 노출됐기 때문이다. 사용자 실수 없이도 계정을 탈취당하는 상황이 벌어지면서, 이제는 2단계 인증(2FA)에 매달려 운 좋게 보안망이 버텨주길 바라는 처지가 됐다. 이는 NPM 사례에서 본 공급망 공격과도 맥을 같이 한다. 안정성보다 속도를 우선시한 대가는 가혹하다.

실시간으로 지식을 업데이트하는 지속적 학습(continuous learning) 특성은 위험을 더 키운다. 모델이 실시간으로 진화하면 시스템 동작이 예측 불가능하게 변하는 위험한 '과도기적 상태'가 발생한다. 수백만 명의 요청을 처리하는 라이브 모델의 경우, 최초 테스트 시점과 실제 요청 처리 시점 사이에 시스템이 갑자기 불안정해지거나 취약해질 수 있다는 뜻이다. 이렇게 변하는 상태를 검증할 방법이 없다면, 결함이 있는 버전이 배포될 위험은 커질 수밖에 없다.

전문가들은 이를 막기 위해 더 엄격한 단계별 배포 방식을 제안한다. 학습 모델을 즉시 공개하는 대신, 통제된 환경에서 먼저 학습시키는 작업 흐름(workflow)을 구축하는 것이다. 학습이 끝나면 안전 프로토콜과 레드팀 테스트(red teaming, 보안 전문가가 의도적으로 시스템을 공격해 약점을 찾는 과정)라는 혹독한 검증을 거쳐야 한다. 이렇게 패키징되어 안전함이 확인된 버전만 대중에게 공개하는 방식이다. 끊임없는 업데이트 흐름을 검증된 개별 출시 단위로 전환해야 한다. 그래야 혁신이라는 이름 아래 사용자 보안이 희생되는 일을 막을 수 있다.

06오픈AI·앤스로픽: 소프트웨어 판매에서 '현장 도입 컨설팅'으로 전환

많은 기업이 이미 강력한 AI 도구를 갖췄지만, 정작 활용법은 그 수준을 따라가지 못하고 있다. 기술적 잠재력은 높지만 실제 업무 적용 능력이 떨어지는 '기술 잠재력과 실제 활용의 격차(capabilities overhang)' 현상이다. 특히 복잡한 업무 흐름(workflow)을 스스로 처리하는 자율형 AI(AI agents)의 발전 속도가 기업의 적응 속도보다 훨씬 빠르다. 오픈AI와 앤스로픽은 이 간극을 메우기 위해 전략을 바꿨다. 단순히 소프트웨어를 파는 것을 넘어, 기업이 AI를 실제로 제대로 쓰게 만드는 '도입 서비스'에 집중하기 시작했다. 전략의 중심이 제품에서 실행으로 옮겨갔다.

오픈AI는 지분 과반을 보유한 별도의 도입 전문 회사를 설립해 대응하고 있다. 고객사가 알아서 설치하고 쓰도록 내버려 두지 않고, '현장 배치 엔지니어'를 직접 투입한다. 이 전문가들은 고객사 조직 내부에서 함께 일하며 AI의 기능이 실제 비즈니스 가치로 이어지도록 돕는 가교 역할을 한다. 단순히 사용자가 프롬프트를 입력해 답을 얻는 기존 방식으로는 기업의 복잡한 요구사항을 해결할 수 없다는 판단이다. 이제 프롬프트 한 줄로는 부족하다.

앤스로픽 역시 강력한 파트너십 네트워크를 통해 같은 목표를 쫓고 있다. 블랙스톤, 골드만삭스, 헬만 앤 프리먼과 손잡고 Fractional 기반의 기업 전용 AI 컨설팅 펌을 론칭한다. 파트너사들이 가진 금융 및 전략적 전문성을 활용해, 대기업들이 자율형 자동화 체제로 매끄럽게 전환할 수 있도록 가이드라인을 제시하겠다는 전략이다.

이러한 전문 서비스로의 전환은 AI 과금 방식의 변화와 궤를 같이한다. 최근 업계 리더들은 사용량 기반 과금제를 도입하고 프리미엄 플랜의 제한을 강화하는 추세다. 일부 자체 도구는 보조금을 통해 저렴하게 유지되지만, 외부 시스템이나 다른 검증 장치(harness)를 도입하면 비용이 급격히 상승한다. AI 도입 효율이 곧 돈과 직결되는 상황이다. 기업 입장에서는 비용을 관리하고 업무 흐름을 최적화하기 위해, 오픈AI나 앤스로픽 같은 공급사가 제공하는 전문 컨설팅과 엔지니어링 지원이 필수적이 됐다.

07우버의 AI 비용 충격 — 1년 치 예산을 4개월 만에 탕진

우버가 AI 투자에 따른 혹독한 비용 현실을 마주했다. 기술 도입 속도는 빨랐지만, 투입된 막대한 비용이 실제 창출하는 가치와 충돌하며 이른바 'AI 가격 충격(AI sticker shock)'을 겪고 있다. 이제 무조건적인 도입의 시대는 끝났다. 우버는 이제 비용 제약을 강화하고, AI가 실제 수익에 얼마나 기여하는지를 냉정하게 따지는 평가 단계로 진입했다.

지출 속도가 가히 파격적이었다. 우버의 최고기술책임자(CTO)는 지난 4월, 2026년 한 해 동안 쓰기로 한 AI 예산을 단 4개월 만에 모두 소진했다고 밝혔다. 공격적인 전략의 결과였지만, 동시에 심각한 재정 공백을 초래했다. 1년 치 예산이 한 분기 만에 사라진 상황에서, 투자 대비 효율(ROI)을 증명해야 한다는 압박은 이제 선택이 아닌 생존의 문제가 됐다.

경영진 내부에서도 회의론이 터져 나오고 있다. 최고운영책임자(COO)는 빠르게 소진된 예산이 실제로 어느 정도의 가치를 만들어냈는지에 대해 강한 의구심을 표했다. 이는 우버만의 문제가 아니라 미국 기업 전반으로 퍼지는 흐름이다. AI 인프라 구축에 막대한 돈을 써도 즉각적인 생산성 향상으로 이어지지 않는다는 사실을 깨닫기 시작한 것이다. 이제 시장의 관심은 단순한 'AI 도입'이 아니라, 측정 가능한 비즈니스 성과라는 실질적인 결과물로 옮겨가고 있다.

08제미나이 요금제 — 겉으론 가격 인하, 실체는 쓴 만큼 더 내는 구조

구글의 최첨단 AI 도구를 헤비하게 사용하는 이용자들에게 새로운 청구서가 날아오기 시작했다. 최근 구글이 제미나이(Gemini)의 주요 요금제 가격을 낮췄지만, 여기에는 치명적인 조건이 붙었다. 바로 엄격한 사용량 제한을 두고, 이를 초과하면 추가 비용을 물리는 사용량 기반 과금(usage-based billing) 체계를 도입한 것이다. 가볍게 쓰는 일반 사용자에게는 월 이용료 인하가 반가운 소식이겠지만, AI를 업무에 깊게 활용하는 전문가들에게는 오히려 전체 지출 비용이 늘어나는 결과가 될 가능성이 크다. 겉모습은 할인, 실체는 비용 전가다.

구체적으로 구글은 제미나이 울트라(Gemini Ultra) 요금제 가격을 200달러로 낮추고, 100달러짜리 새로운 등급을 신설했다. 하지만 이 요금제들은 더 이상 '무제한 정액제'가 아니다. 월 기본료 위에 사용량 기반 과금을 얹음으로써, 구글은 사용자가 모델을 얼마나 혹사시키든 상관없이 서비스 제공 비용을 확실히 회수하겠다는 계산을 세웠다. 할당된 한도를 넘기는 순간 추가 요금이 부과된다. 예측 가능한 고정 지출의 시대가 끝났다.

이러한 변화는 AI 산업 전체가 'AI 보조금 시대'를 지나 '토큰 희소성(token scarcity) 시대'로 진입하고 있음을 시사한다. 그동안 기업들은 고가의 월 구독료를 받았지만, 소수의 헤비 유저가 컴퓨팅 자원을 독식하는 바람에 실제로는 적자를 보는 구조였다. 이제 업계는 AI가 처리하는 텍스트 단위인 '토큰'의 실제 가치가 무시할 수 없을 만큼 높다는 사실을 인정하기 시작했다. 구글은 과금 방식을 바꿈으로써 고객이 내는 돈과 AI 출력에 들어가는 실제 계산 비용을 일치시키는 지속 가능한 사업 모델을 구축하려는 것이다. 결국 AI 비용의 현실화다.

09영상 배경을 말 한마디로 바꾼다? Pixelfield가 Adobe에 AI를 심은 이유는?

Pixelfield가 Adobe 프로그램 내에서 인공지능을 바로 사용할 수 있는 플러그인을 내놨다. 이제 영상 편집자는 복잡한 AI 효과를 넣기 위해 다른 소프트웨어나 외부 플랫폼을 번거롭게 오갈 필요가 없다. 평소 쓰던 Adobe 환경에서 모든 작업을 끝낼 수 있기 때문이다. 전문 편집 도구와 생성형 AI 사이의 간극을 메워, 누구나 고품질의 영상 제작 기법을 쉽게 사용할 수 있게 됐다. 이제 툴 사이를 오가는 시간 낭비는 끝났다.

핵심은 간단한 명령어(프롬프트)만으로 정교한 AI 편집이 가능하다는 점이다. 예를 들어, 평범한 배경을 로마 콜로세움으로 바꾸라고 명령하면 AI가 이를 즉시 수행한다. 과거에는 숙련된 편집자가 일일이 영역을 지정(마스킹)하고 층을 쌓는(레이어링) 고된 수작업이 필요했지만, 이제는 이 모든 과정이 자동화됐다. 편집자는 이제 프레임 단위의 단순 반복 노동이 아니라, 전체적인 창의적 방향 설정에만 집중하면 된다. 노동이 아니라 기획의 영역으로 넘어온 것이다.

이는 AI가 별도의 도구가 아니라, 작업 흐름(workflow) 속에 완전히 녹아든 '심리스한 조수'가 되었음을 의미한다. 전문가든 취미생이든 Adobe 내에서 즉시 장면을 수정할 수 있어, 아이디어가 최종 영상으로 구현되는 시간이 획기적으로 줄어든다. Pixelfield는 업계 표준 도구에 AI 기능을 내장함으로써 영화 수준의 시각 효과 진입 장벽을 낮췄다. 이제 복잡한 합성 기술을 배우지 않고도 피사체를 고대 유적지로 순간 이동시키는 과감한 시각적 실험이 가능해졌다.