에이전트 인프라를 API로 통합한 Gemini 3.5 Flash 공개

비 오는 수요일 오후, 샌프란시스코의 한 공유 오피스.

화면 속 개발자는 에이전트의 상태를 유지하기 위해 복잡한 데이터베이스 스키마를 설계하고, 도구 실행을 위한 도커(Docker) 컨테이너를 수동으로 띄우며 씨름하고 있다. 모델이 내뱉은 코드가 실제 환경에서 어떻게 작동할지, 세션이 끊겼을 때 이전 상태를 어떻게 복구할지에 대한 인프라 고민이 정작 AI의 논리적 추론보다 더 많은 시간을 잡아먹는 광경이다.

이런 풍경이 곧 바뀐다.

Gemini 3.5 Flash의 벤치마크 성능과 가격 정책

Gemini 3.5 Flash는 기존 프리미엄 모델인 Gemini 3.1 Pro의 성능을 상회하는 벤치마크 결과를 기록하며 효율성 중심의 모델 설계 가능성을 구체적으로 보여주었다. 코딩 성능을 정밀하게 측정하는 Terminal-Bench 2.1에서 76.2%의 정답률을 기록한 점은 개발 환경에서의 실질적인 코드 생성 및 수정 능력이 강화되었음을 의미한다. 실제 환경의 에이전트 작업 성능을 평가하는 GDPval-AA(에이전트 작업 성능 평가 지표)에서는 1656 Elo를 달성하며 복잡한 목표를 단계별로 수행하는 능력을 입증했다. 또한 도구 사용의 신뢰도를 측정하는 MCP Atlas(모델 제어 플랫폼 아틀라스)에서 83.6%를, 멀티모달 이해력을 검증하는 CharXiv Reasoning(과학 논문 추론 벤치마크)에서 84.2%를 기록하며 시각적 정보와 텍스트를 동시에 처리하는 추론 능력이 고도화되었음이 관찰된다. 이러한 지표들은 모델이 단순한 텍스트 생성을 넘어 외부 도구를 정확하게 호출하고 복합적인 데이터를 해석하는 에이전트로서의 실무적 가치를 확보했음을 시사한다.

개발자가 체감하는 가장 큰 변화는 성능 향상과 동시에 이루어진 처리 속도와 비용의 획기적인 감소다. 출력 토큰 생성 속도는 이전 모델 대비 4배 빨라졌으며, 실제 작업 완료에 소요되는 비용은 기존의 절반 이하로 낮아진 사례가 확인된다. 구체적인 가격 정책을 보면 입력 토큰 100만 개당 1.50달러, 출력 토큰 100만 개당 9.00달러로 책정되어 운영 부담을 대폭 줄였다. 특히 캐시된 입력 토큰에 대해 100만 개당 0.15달러라는 파격적인 가격을 적용한 점이 주목할 만하다. 이는 대규모 문서나 반복적인 시스템 프롬프트를 컨텍스트에 유지해야 하는 RAG(검색 증강 생성) 기반 서비스에서 API 호출 비용을 극단적으로 낮출 수 있는 실무적 이점을 제공하며, 이는 곧 더 빈번한 모델 호출과 정교한 반복 루프 설계가 가능함을 의미한다.

이러한 효율성은 모델의 수용량과 자원 할당 방식에서도 구체적으로 나타난다. 입력 컨텍스트 윈도우는 1,048,576 토큰을 지원하며, 최대 출력 토큰은 65,536개까지 확장되어 방대한 양의 데이터를 한 번에 처리할 수 있는 구조를 갖췄다. 텍스트, 이미지, 오디오, 비디오를 모두 수용하는 멀티모달 입력 체계를 갖추었음에도 불구하고 빠른 응답 속도를 유지하는 점이 핵심이다. 지식 컷오프는 2026년 1월로 설정되었으며, 기본적으로 동적 사고(Dynamic Thinking) 기능이 활성화되어 있다. 이 기능은 모델이 문제의 난이도를 스스로 판단하여 어려운 문제에는 더 많은 컴퓨팅 자원을 자동으로 할당하는 방식으로 작동하여 응답의 정확도를 높인다. 결과적으로 Gemini 3.5 Flash는 고성능 모델의 지능과 경량 모델의 경제성을 동시에 확보하여, 복잡한 에이전트 워크플로우를 실제 프로덕션 코드에 통합하는 진입장벽을 낮춘 것으로 분석된다.

Managed Agents API와 격리된 리눅스 컨테이너 구조

기존에는 에이전트가 코드를 실행하기 위해 개발자가 직접 런타임 환경을 구축하고 상태를 관리하는 수동 작업이 필수적이었다. 이번에 도입된 Managed Agents API는 이러한 인프라 계층을 완전히 추상화하여 API 호출 한 번으로 추론, 도구 사용, 코드 실행이 모두 가능한 에이전트를 생성한다. 개발자가 직접 도커 컨테이너를 띄우거나 가상 환경을 설정하고 API와 연결하는 복잡한 파이프라인을 구축할 필요가 없어진다. 이는 인프라 관리의 부담을 구글의 관리형 서비스로 넘기고 개발자는 에이전트의 페르소나와 도구 정의라는 상위 논리에만 집중하게 만드는 구조적 변화로 분석된다.

실제 실행 환경은 격리된 리눅스 컨테이너(Isolated Linux container) 내부에서 이루어진다. 가장 핵심적인 기술적 특징은 후속 호출 간에 파일과 상태가 유지되는 상태 유지(State persistence) 지원이다. 기존의 LLM API가 매 요청마다 독립적인 컨텍스트를 가지는 무상태성(Stateless) 구조였다면, Managed Agents는 세션 내에서 생성된 파일이나 변경된 환경 설정이 다음 호출에서도 그대로 보존된다. 이러한 특성은 에이전트가 복잡한 데이터 분석을 위해 임시 파일을 생성하고 이를 기반으로 다시 코드를 수정하며 결과물을 도출하는 다단계 루프를 수행할 때 필수적인 요소다. 결과적으로 개발자는 상태 관리 로직을 별도로 구현하지 않고도 매끄러운 멀티턴 에이전트 세션을 구축할 수 있다.

자원 효율성을 극대화하기 위한 동적 사고(Dynamic thinking) 메커니즘이 기본적으로 활성화된 점도 관찰된다. 이는 모든 요청에 동일한 연산량을 투입하는 대신 문제의 난이도를 모델이 스스로 판단하여 컴퓨팅 자원을 자동 할당하는 방식이다. 단순한 API 호출이나 간단한 텍스트 생성에는 최소한의 자원을 사용하고 고도의 논리적 추론이 필요한 복잡한 코딩 과제에는 더 많은 연산력을 집중시켜 응답의 질을 높인다. 여기에 1,048,576 토큰에 달하는 방대한 컨텍스트 윈도우와 최대 65,536 토큰의 출력 용량이 더해져 대규모 코드베이스를 한 번에 읽어 들이고 상세한 구현 계획을 출력하는 장기적 관점의 작업 수행이 가능해진다. 이는 단순한 챗봇을 넘어 실제 소프트웨어 엔지니어링 워크플로우를 대체할 수 있는 인프라적 기반을 갖췄음을 시사한다.

Gemini 3.1 Pro를 넘어선 Flash 티어의 역전 현상

개발팀이 공개한 벤치마크 수치는 기존의 모델 계층 구조를 완전히 뒤집는다. Gemini 3.5 Flash는 이전 세대의 프리미엄 모델인 Gemini 3.1 Pro의 성능을 여러 지표에서 추월한 것으로 관찰된다. 과거에는 모델의 체급이 곧 지능의 척도였으며, Flash 티어는 속도와 비용 효율성을 위해 성능의 일부를 타협한 하위 모델로 정의되었다. 하지만 이번 업데이트를 통해 하위 티어 모델이 상위 티어의 성능을 넘어서는 역전 현상이 발생하며 모델 선택의 기준점이 근본적으로 변화했다. 이는 단순히 버전 숫자의 상승이 아니라, 모델 최적화 기술이 체급의 한계를 극복하고 지능의 밀도를 높였음을 시사한다. 이제 개발자는 더 이상 성능을 위해 느린 응답 속도를 감수하거나, 속도를 위해 지능의 저하를 수용해야 하는 이분법적 선택지에 놓이지 않게 된다.

실무 관점에서 가장 즉각적인 변화는 추론 속도와 운영 비용의 급격한 하락이다. Gemini 3.5 Flash는 출력 토큰 생성 속도가 기존 대비 4배 향상되었으며, 전체적인 작업 완료 비용은 50% 미만으로 감소했다. 개발자가 API 응답 시간을 줄이기 위해 프롬프트를 극도로 압축하거나 복잡한 캐싱 전략을 세워야 했던 기존의 제약이 상당 부분 해소된다. 특히 실시간 상호작용이 필수적인 에이전트 환경에서 4배의 속도 향상은 사용자 경험의 질을 결정짓는 핵심 변수가 된다. 비용 감소 역시 공격적인 모델 호출 전략을 가능하게 하여, 이전에는 비용 부담으로 인해 시도하지 못했던 다단계 추론 루프나 반복적인 자기 수정 과정을 실제 코드에 구현할 수 있는 환경이 조성되었다. 이는 토큰당 비용 최적화라는 소모적인 작업보다 서비스의 논리적 완결성을 높이는 설계에 더 집중할 수 있게 만든다.

지식의 최신성 또한 실무적인 가치를 더하는 요소로 작용한다. 2026년 1월까지의 지식 컷오프를 확보함으로써 최신 기술 스택이나 최신 라이브러리에 대한 이해도가 높아졌으며, 이는 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 시스템의 의존도를 낮추는 결과로 이어진다. 이제 엔지니어는 모델의 체급을 보고 성능을 예측하는 것이 아니라, 주어진 작업의 효율성을 기준으로 모델을 선택하는 전략을 취하게 된다. 고성능 모델의 추론 능력을 유지하면서도 Flash 티어의 경제성과 속도를 동시에 확보할 수 있다는 점은 전체 인프라 설계의 복잡도를 낮춘다. 결과적으로 모델의 크기라는 물리적 제약보다 데이터 처리 효율과 추론 최적화라는 소프트웨어적 가치가 우선시되는 시대로 진입했다는 점이 확인된다. 이는 모델 선택의 패러다임이 체급 중심에서 효율 중심으로 완전히 이동했음을 보여주는 사례다.

Shopify부터 Databricks까지, 엔터프라이즈 에이전트의 실전 배치

Shopify는 데이터 분석을 위해 병렬 서브에이전트를 운용하며 글로벌 가맹점의 성장 예측 정확도를 높였다. 단순한 질의응답이 아니라 여러 개의 에이전트가 동시에 서로 다른 분석 경로를 탐색하고 결과를 취합하는 구조를 채택한 결과다. 이는 롱 호라이즌(Long-horizon, 장기적 목표 수행) 에이전트가 단순한 기술적 실험을 넘어 실제 비즈니스 지표를 개선하는 단계에 진입했음을 보여준다. 개발자 관점에서 이는 단일 프롬프트 최적화라는 기존의 접근법에서 벗어나, 에이전트 간의 역할 분담과 오케스트레이션(Orchestration, 조율) 설계로 구현의 중심축이 이동하고 있음을 의미한다.

맥쿼리 은행(Macquarie Bank)은 100페이지가 넘는 복잡한 문서 기반의 고객 온보딩(Onboarding, 신규 고객 등록 과정) 파일럿을 운영하며 실무 적용 가능성을 검증하고 있다. 방대한 양의 텍스트에서 맥락을 유지하며 정보를 추출하고 신뢰할 수 있는 권고안을 도출하는 과정은 기존의 단순 RAG(Retrieval-Augmented Generation, 검색 증강 생성)보다 훨씬 깊은 추론 능력을 요구한다. 제로(Xero) 역시 공급업체 데이터 수집과 같은 수주 단위의 복잡한 워크플로우에 에이전트를 투입했다. 이는 에이전트가 단발성 세션에 그치지 않고 며칠 혹은 몇 주에 걸쳐 상태를 유지하며 목표를 추적하는 능력이 실제 기업의 운영 프로세스에 통합되기 시작했음을 시사한다. 특히 격리된 환경에서 상태가 보존되는 인프라의 결합이 이러한 장기 과업 수행을 가능케 한다.

기업용 플랫폼으로의 통합 양상은 더욱 구체적이다. 세일즈포스(Salesforce)는 에이전트포스(Agentforce, 기업용 AI 에이전트 플랫폼)에 이를 통합하여 멀티턴 도구 호출 기반의 기업 업무 자동화를 구현했다. 램프(Ramp)는 멀티모달 이해력과 과거의 패턴 추론을 결합하여 송장 OCR(Optical Character Recognition, 광학 문자 인식)의 정밀도를 고도화하는 방식을 제안한다. 데이터브릭스(Databricks)는 실시간 데이터 모니터링 과정에서 문제가 발생했을 때 엔지니어에게 즉각적인 진단 결과와 해결책을 제안하는 에이전틱 워크플로우를 도입했다. 이러한 사례들은 에이전트가 단순한 챗봇의 형태를 벗어나, 도메인 지식과 도구 사용 능력을 갖춘 전문 운영 인력의 기능을 수행하는 방향으로 진화하고 있음을 관찰할 수 있다. 이제 실무진은 모델의 추론 속도보다 에이전트가 얼마나 안정적으로 외부 도구를 호출하고 복잡한 상태를 유지하며 목표를 완수하는지에 더 집중하게 된다.

국내 AI 실무자가 주목해야 할 Antigravity 2.0과 SDK 전략

이전까지의 에이전트 개발은 개별 실행 환경을 수동으로 구축하고 세션 상태를 유지하는 작업에 상당한 시간이 소요되었다. 이번에 공개된 Google Antigravity 2.0은 이러한 인프라 관리의 부담을 제거하는 독립형 데스크톱 앱으로 설계되었다. 특히 여러 에이전트가 동시에 작동하는 병렬 오케스트레이션(Orchestration, 여러 에이전트의 협업 조정)을 지원한다는 점이 관찰된다. 동적 서브에이전트(Subagent)를 통해 복잡한 워크플로우를 병렬로 처리하고 예약된 작업을 통해 백그라운드 자동화를 구현하는 방식은 개발자가 인프라 구축이 아닌 에이전트 간의 협업 로직 설계에만 집중하게 만든다. 터미널 환경을 선호하는 개발자를 위해 제공되는 Antigravity CLI는 GUI 없이 즉시 에이전트를 생성할 수 있도록 지원하며, 기존 Gemini CLI 사용자들의 즉각적인 마이그레이션을 권장하고 있다.

실무적 관점에서 가장 주목할 지점은 Antigravity SDK(Software Development Kit, 소프트웨어 개발 키트)를 통한 제어권의 확장과 프로그래밍 방식의 접근이다. SDK를 활용하면 단순히 제공된 인터페이스를 사용하는 수준을 넘어, 특정 비즈니스 도메인에 최적화된 커스텀 에이전트의 동작을 정교하게 정의할 수 있다. 특히 인프라 호스팅을 선택적으로 지원한다는 점은 기업의 내부 보안 정책이나 기존에 사용 중인 클라우드 환경에 맞춰 배포 전략을 유연하게 수립할 수 있음을 의미한다. 이는 6개월 뒤 실제 서비스 코드에 적용될 때, 인프라 계층의 복잡성을 추상화하면서도 에이전트의 추론 및 실행 능력만을 효율적으로 통합하는 구조를 가능하게 한다. 결과적으로 개발팀은 서버 구축 비용을 줄이면서도 에이전트의 성능 최적화라는 본질적인 과제에 더 많은 자원을 투입할 수 있게 된다.

에코시스템의 통합 범위 또한 국내 모바일 및 웹 서비스 개발 환경에 실질적인 이점을 제공한다. Google AI Studio뿐만 아니라 Android와 Firebase(구글의 앱 개발 플랫폼)와의 통합 지원은 에이전트 기능을 모바일 앱 내에 직접 구현하거나 서버리스 환경에서 빠르게 배포하는 경로를 획기적으로 단순화한다. 기존에는 에이전트의 상태 관리와 API 파이프라인을 직접 설계하고 유지보수해야 했으나, 이제는 플랫폼 수준의 통합을 통해 구현 시간을 단축할 수 있는 것으로 분석된다. 이러한 도구 체계는 단순한 질의응답 챗봇을 넘어, 실제 비즈니스 프로세스를 자동화하는 롱 호라이즌(Long-horizon, 장기적 목표 수행) 에이전트 워크플로우를 구축하는 데 핵심적인 기반이 된다. 국내 실무자들은 이를 통해 프로토타입에서 프로덕션으로 넘어가는 단계에서 발생하는 인프라 병목을 최소화하고, 사용자 경험 중심의 에이전트 기능을 빠르게 검증할 수 있을 것으로 제안한다.