Google, Gemini 3.5 Flash를 통해 에이전트 중심의 워크플로우를 공개했다

76.2%. Gemini 3.5 Flash가 Terminal-Bench 2.1 벤치마크에서 기록한 수치다. 이는 AI가 단순히 텍스트를 생성하는 수준을 넘어, 실제 터미널 환경에서 복잡한 코딩 과제를 완수하는 능력이 임계점을 넘었음을 의미한다. 마치 수동으로 하나하나 입력하던 명령어를 AI가 스스로 판단해 일괄 처리하는 자동화 공정의 완성 단계에 진입한 것과 같다. 그런데 Google은 이번 발표를 통해 단순한 성능 지표의 상승보다 더 거대한 지형 변화를 예고했다. 모델의 지능(Intelligence)에 실행력(Action)을 결합해, 스스로 계획하고 도구를 사용하는 '에이전트'로서의 정체성을 전면에 내세운 것이다. 이는 기존의 챗봇 패러다임을 무너뜨리고, AI가 비즈니스 프로세스의 실질적인 운영 주체가 되는 판도의 변화를 의미한다. Google은 이를 위해 Gemini 3.5 시리즈를 공개하며, 특히 속도와 비용 효율성을 극대화한 Flash 모델을 통해 기업용 에이전트 시장의 포석을 깔았다.

Gemini 3.5 Flash 출시와 3.5 Pro 출시 일정

개발자가 체감하는 가장 큰 변화는 토큰 생성 속도와 비용의 임계점이다. 구글은 에이전트 성능과 속도를 극대화한 Gemini 3.5 Flash를 즉시 출시했다. 이 모델은 타 프론티어 모델 대비 토큰 생성 속도가 4배 빠르다. 운영 비용 역시 획기적으로 낮췄다. 타 프론티어 모델 대비 50% 미만의 비용으로 동일한 작업을 수행할 수 있다. 이는 단순한 경량화가 아니라 에이전트 중심의 워크플로우를 위한 전략적 포석이다.

기존 AI 시장에서는 품질과 지연 시간 사이의 트레이드오프(Trade-off, 어느 하나를 얻으려면 다른 하나를 포기해야 하는 상태)가 상존했다. 고성능 모델은 느렸고, 빠른 모델은 지능이 낮았다. Gemini 3.5 Flash는 이 지형을 바꾼다. 프론티어 급의 지능을 유지하면서 지연 시간을 극단적으로 줄였다. 특히 복잡한 롱 호라이즌(Long-horizon, 장기적인 단계가 필요한) 작업에서 실질적인 유틸리티를 제공한다. 개발자가 며칠을 매달려야 했던 작업이나 감사인이 몇 주간 분석해야 했던 문서를 단시간에 처리하는 효율을 낸다. 이는 AI가 단순한 챗봇을 넘어 스스로 계획을 세우고 실행하며 결과를 반복 수정하는 에이전트로서의 정체성을 확보했음을 뜻한다.

구글의 제품 로드맵은 여기서 멈추지 않는다. Gemini 3.5 Pro의 출시 일정을 다음 달로 예고했다. 현재 내부적으로 사용 중인 이 모델은 Flash보다 더 높은 지능적 정밀도를 제공할 것으로 보인다. Flash가 속도와 비용으로 시장의 진입 장벽을 낮춘다면, Pro는 고난도 추론의 정점을 찍는 구조다. 두 모델의 순차적 배치는 기업들이 에이전트 도입 단계에 따라 모델을 선택하게 만드는 계층적 전략이다. 이는 인프라 비용 최적화와 성능 극대화를 동시에 추구하는 기업 전략에 부합한다.

이번 출시는 AI의 역할이 단순 응답에서 실행으로 전환됨을 의미한다. Gemini 3.5 Flash는 복잡한 코딩과 에이전트 벤치마크에서 Gemini 3.1 Pro를 앞서는 성능을 보였다. Terminal-Bench 2.1에서 76.2%, GDPval-AA에서 1656 Elo, MCP Atlas에서 83.6%의 수치를 기록했다. 멀티모달 이해도 역시 CharXiv Reasoning 기준 84.2%로 업계를 선도한다. 구글은 이를 Antigravity(안티그래비티, 협업 서브에이전트 배포를 위한 하네스)와 결합해 대규모 문제 해결 엔진으로 활용한다. AI Studio(ai.google.dev)와 같은 환경에서 실시간으로 인터랙티브 UI를 생성하고 코드를 변환하는 실행력을 갖췄다. 특히 레거시 코드베이스를 Next.js로 변환하거나 복잡한 금융 문서를 분석하는 등 실제 비즈니스 현장의 고된 작업(Toil)을 자동화하는 데 집중한다.

Antigravity 하네스를 통한 협업 서브에이전트 구조

개발자가 복잡한 과업을 수행할 때 단일 모델에 의존하던 방식이 사라진다. Antigravity 하네스(Google의 에이전트 배포 프레임워크)는 여러 서브에이전트를 동시에 배포하고 제어하는 오케스트레이션 층으로 작동한다. 이제 모델은 단순한 응답기가 아니라 다단계 워크플로우(Multi-step workflows)를 설계하고 실행하는 운영체제에 가까워졌다. 특정 목표를 달성하기 위해 전체 과업을 세부 단위로 쪼개고 각 단계에 최적화된 서브에이전트를 배치하는 구조를 갖췄다. 이는 LLM의 고질적인 문제인 환각을 줄이고 실행의 정밀도를 높이기 위한 전략적 포석이다. 단일 모델이 모든 것을 처리하는 대신 전문화된 에이전트들이 협업하며 결과물의 신뢰도를 확보한다.

실제 구동 방식은 단순한 텍스트 생성에서 실질적인 실행으로 옮겨갔다. Gemini 3.5 Flash는 Antigravity를 통해 비정형 자산의 이름을 자동으로 변경하고 동적인 기준에 따라 카테고리화하는 작업을 수행한다. 이는 단순한 파일명 변경이 아니라 데이터의 맥락을 이해하고 분류 체계를 스스로 수립해 적용하는 과정이다. 가장 파괴적인 비즈니스 임팩트는 레거시 코드베이스의 Next.js 전환 자동화에서 나타난다. 수만 줄의 낡은 코드를 분석해 현대적인 프레임워크로 옮기는 작업은 과거에 수많은 숙련된 개발자가 투입되어 수주 혹은 수개월이 소요되던 영역이다. 이제는 서브에이전트들이 코드 분석, 구조 설계, 전환, 검증의 단계를 분담하며 처리 시간을 획기적으로 단축하고 휴먼 에러를 제거한다.

성능의 핵심은 빌더(Builder)와 플레이어(Player) 에이전트가 형성하는 자가 개선 루프(Self-improvement loop)에 있다. 빌더 에이전트가 가설을 세우고 코드를 작성하면 플레이어 에이전트가 이를 실제로 실행하고 테스트하며 결과값을 피드백으로 보낸다. 이 과정이 고속으로 반복되며 결과물의 완성도를 스스로 높이는 폐쇄 루프 구조를 형성한다. 예를 들어 게임 개발 시 빌더가 특정 기능을 구현하면 플레이어가 이를 직접 플레이하며 논리적 결함이나 버그를 찾아내고 이를 다시 빌더에게 전달해 수정하게 만든다. 이러한 협업 구조는 인간의 세밀한 개입 없이도 소프트웨어의 품질을 상향 평준화하는 결과를 낳는다. 이는 AI 에이전트가 단순한 코딩 보조 도구를 넘어 자율적인 개발 팀의 역할을 수행하는 지형의 변화를 의미한다.

Gemini 3.1 Pro 대비 벤치마크 성능 및 효율성 비교

개발팀이 공개한 수치는 여기서 갈린다. Gemini 3.5 Flash는 경량 모델임에도 이전 세대 상위 모델인 Gemini 3.1 Pro의 성능을 상회했다. Terminal-Bench 2.1에서 76.2%를 기록하며 코딩 및 에이전트 작업 능력을 입증했다. GDPval-AA에서는 1656 Elo를 달성했다. MCP Atlas(Model Context Protocol Atlas, 모델 컨텍스트 프로토콜 아틀라스) 벤치마크에서도 83.6%의 수치를 기록했다. 특히 코딩 벤치마크에서의 우위는 실질적인 개발 생산성 향상으로 이어진다. 이는 경량 모델이 처리 가능한 작업의 복잡도가 기존의 임계점을 완전히 넘어섰음을 의미한다.

멀티모달 이해도 영역에서도 시장 선점 수준의 지표를 보였다. CharXiv Reasoning에서 84.2%를 기록하며 복잡한 시각 정보와 텍스트의 통합 추론 능력을 증명했다. 단순한 텍스트 처리를 넘어 이미지와 도표를 동시에 해석하는 능력이 극대화되었다. Artificial Analysis(인공지능 모델 성능 분석 지표) 인덱스 내 우상단 영역에 위치한 점이 핵심이다. 우상단은 높은 지능과 빠른 속도를 동시에 확보한 모델만이 진입할 수 있는 구간이다. 출력 토큰 생성 속도는 다른 프런티어 모델 대비 4배 더 빠르다. 지능의 수준을 유지하면서 속도라는 물리적 제약을 해결한 결과다.

그동안 AI 산업의 지형은 지연 시간과 품질 사이의 트레이드오프라는 상수로 정의됐다. 고성능을 원하면 응답 속도를 희생하고, 속도를 원하면 지능의 정밀도를 포기하는 구조였다. 3.5 Flash는 이 고착된 공식을 깨뜨렸다. 품질 저하 없이 응답 속도를 극대화하며 효율성의 새로운 기준을 제시했다. 운영 비용 또한 다른 프런티어 모델의 절반 이하 수준으로 낮췄다. 기업 입장에서 추론 비용의 획기적 절감은 곧 서비스의 확장성과 수익성으로 직결된다. 인프라 비용의 하락은 더 많은 기업이 고성능 AI 에이전트를 실제 서비스에 도입하게 만드는 강력한 유인책이 된다.

이러한 성능 배치는 에이전트 중심 워크플로우를 장악하기 위한 전략적 포석이다. 실시간 상호작용이 필수적인 AI 에이전트 환경에서 낮은 지연 시간은 사용자 경험의 핵심이다. 여기에 Pro급 지능이 결합되면 복잡한 다단계 작업을 끊김 없이 수행할 수 있다. 개발자가 며칠씩 매달리던 작업을 단시간에 처리하면서도 정확도를 유지하는 구조가 가능해졌다. 구글은 모델의 체급을 낮추면서도 성능의 상한선을 높이는 방식으로 시장의 판도를 바꾸고 있다. 이는 단순한 모델 업데이트를 넘어 경량 모델이 주도하는 새로운 AI 생태계의 시작을 예고한다.

쇼피파이와 세일즈포스가 도입한 에이전트 기반 비즈니스 자동화

쇼피파이(Shopify, 글로벌 이커머스 플랫폼)는 글로벌 가맹점의 성장 예측을 위해 병렬 서브에이전트를 실전 배치했다. 장기적인 관점에서 복잡한 데이터를 분석하는 이 체계는 예측의 정확도를 높이는 동시에 분석 주기를 획기적으로 단축한다. 세일즈포스(Salesforce, 고객 관계 관리 기업)는 에이전트포스(Agentforce, 자율형 AI 에이전트 플랫폼)에 3.5 Flash를 통합해 기업 과업 자동화의 수준을 높였다. 여러 서브에이전트가 문맥을 유지하며 다회차 도구 호출을 수행하는 구조다. 이는 단순한 질의응답 수준의 챗봇을 넘어 기업의 핵심 운영 프로세스를 직접 수행하는 에이전트 중심의 지형 변화를 의미한다.

금융과 회계 분야의 실무 지형 역시 빠르게 재편되고 있다. 맥쿼리 은행(Macquarie Bank, 글로벌 투자은행)은 100페이지가 넘는 방대한 문서 기반의 고객 온보딩 프로세스를 가속화하고 있다. 저지연 환경에서 핵심 정보를 추출하고 신뢰할 수 있는 추천안을 제시함으로써 수작업으로 진행되던 검토 시간을 줄였다. 램프(Ramp, 지출 관리 플랫폼)는 멀티모달 이해 능력을 활용해 스마트 OCR(광학 문자 인식)을 구현했다. 복잡한 송장 분석에 과거 데이터의 패턴 추론을 결합해 데이터 입력의 신뢰도를 높인 사례다. 지로(Xero, 클라우드 회계 소프트웨어)는 1099 세금 양식 정보 수집과 같은 다주간의 워크플로우를 자동화했다. 소상공인이 겪는 지루한 행정 업무를 AI가 자율적으로 관리하며 실무자의 리소스를 고부가가치 작업으로 전환시킨다.

데이터 인프라와 개인 서비스 영역에서도 에이전트의 영향력은 구체화된다. 데이터브릭스(Databricks, 데이터 및 AI 기업)는 실시간 정보 검색과 대규모 데이터셋 진단을 통해 데이터 과학자에게 최적의 솔루션을 제안하는 워크플로우를 구축했다. 이는 데이터 분석가의 단순 반복 작업을 제거하고 문제 해결의 사이클을 단축하는 비즈니스 임팩트로 이어진다. 이러한 기업용 자동화 흐름은 개인용 AI 에이전트인 제미나이 스파크(Gemini Spark)로 확장된다. 미국 내 구글 AI 울트라 구독자를 대상으로 다음 주 베타 출시를 앞둔 이 서비스는 24시간 가동되며 사용자의 디지털 삶을 대행한다. 기업의 백엔드 자동화에서 개인의 프론트엔드 비서까지 에이전트 생태계가 완성되는 포석이다.

한국 AI 실무자를 위한 에이전틱 워크플로우 전환 전략

개발자가 AI에게 코드를 짜달라고 요청하고 결과를 복사해 붙여넣던 방식은 이제 구시대의 유물이 됐다. 이제는 AI가 스스로 목표를 설정하고 실행하며 결과물을 완성하는 에이전틱 워크플로우(Agentic Workflow, 자율적 작업 흐름)가 실무의 중심이 된다. Gemini 3.5 Flash 같은 저비용 고속 모델의 등장은 단순 질의응답 수준의 도입 단계에 머물러 있던 한국 기업들에게 명확한 전환점을 제시한다. 기존의 LLM 도입이 개별 직원의 생산성을 보조하는 도구를 찾는 과정이었다면 이제는 비즈니스 프로세스 자체를 자동화하는 지형의 변화가 시작됐다. 단순한 챗봇 구축을 넘어 복잡한 장기 과제를 스스로 수행하는 에이전트를 배치하는 것이 기업의 실질적인 경쟁력으로 직결된다. 이는 단순한 도구의 교체가 아니라 업무 설계 방식의 근본적인 재편을 의미한다.

실무진이 가장 먼저 체감하는 변화는 아이디어의 구현 속도와 접근 경로의 확장이다. 개발자는 Google AI Studio나 Android Studio의 Gemini API를 통해 복잡한 에이전트 설계를 즉시 프로토타입으로 구현하고 테스트할 수 있다. 초기 검증 단계를 거친 서비스는 Gemini Enterprise Agent Platform을 통해 기업 내부의 보안 환경과 인프라에 맞게 대규모로 배포된다. 이는 개별 개발자의 편의성을 높이는 수준을 넘어 전사적 차원의 운영 효율화를 달성하기 위한 전략적 포석이다. 한국 기업들은 이제 API 호출 비용을 줄이는 단순 최적화 단계에서 벗어나야 한다. 에이전트가 얼마나 정교하게 외부 도구를 사용하고 다단계 워크플로우를 끊김 없이 완결 짓는가에 모든 역량을 집중해야 하는 시점이다.

엔터프라이즈 환경에서 도입의 성패를 가르는 지점은 결국 보안과 추론의 신뢰성이다. 구글은 프론티어 안전 프레임워크(Frontier Safety Framework)를 적용해 사이버 보안과 CBRN(화학, 생물, 방사능, 핵) 위협에 대한 방어 체계를 한층 강화했다. 특히 해석 가능성(Interpretability) 도구의 도입은 AI의 내부 추론 과정을 정밀하게 검증할 수 있게 만든다. 이는 결과값만 수동적으로 수용해야 했던 기존의 블랙박스 구조에서 벗어나 AI가 어떤 논리적 단계를 거쳐 결론에 도달했는지 추적할 수 있음을 의미한다. 규제 준수와 리스크 관리가 매우 엄격한 한국의 금융, 의료, 제조 산업군에서 이러한 검증 도구는 실질적인 도입 장벽을 허무는 결정적 요인이 된다. AI의 추론 과정을 투명하게 관리하고 통제하는 능력이 곧 기업의 디지털 거버넌스 역량으로 직결되는 판도가 형성됐다.