Google이 제미나이 3.5 기반의 능동형 에이전트 '제미나이 스파크'를 공개했다

Google가 제미나이 3.5 모델을 기반으로 이용자의 지시를 백그라운드에서 수행하는 능동형 AI 에이전트 '제미나이 스파크(Gemini Spark)'를 공개했다. 이번 발표는 제미나이의 월간 이용자 수가 지난해 4억 명에서 현재 9억 명 이상으로 급증하고, 서비스 지역이 230개국, 지원 언어가 70여 개로 확대된 시점에서 이루어졌다. Google는 단순한 질의응답 수준의 어시스턴트를 넘어, 사용자의 일상을 선제적으로 관리하는 '범용 어시스턴트'로의 진화를 목표로 하고 있다.

이를 위해 Google는 인터페이스 전반을 재설계한 '뉴럴 익스프레시브(Neural Expressive)' 디자인 언어를 도입하고, 텍스트와 이미지, 동영상을 조합해 고품질 영상을 생성하는 '제미나이 옴니'를 선보였다. 특히 주목할 점은 사용자의 지메일과 캘린더 등을 분석해 우선순위를 제안하는 '데일리 브리프'와, 기기 잠금 상태에서도 클라우드 상에서 업무를 처리하는 '제미나이 스파크'의 등장이다. 이러한 변화는 AI가 사용자의 호출을 기다리는 수동적 도구에서, 스스로 맥락을 파악하고 실행하는 능동적 에이전트로 전환되었음을 시사한다.

제미나이 3.5 기반의 '스파크'와 '옴니' 출시 일정 및 규모

구글 제미나이의 월간 이용자 수는 현재 9억 명을 넘어섰다. 지난해 구글 I/O 당시 4억 명 수준이었던 규모가 1년 만에 두 배 이상 성장하며 230개국에서 70여 개 언어를 지원하는 광범위한 생태계를 구축한 것으로 관찰된다. 이 정도 규모의 사용자 기반은 제미나이 3.5 기반의 신규 기능들이 실무 환경에 빠르게 침투할 수 있는 물리적 토대가 된다. 특히 전 세계적인 배포 규모는 모델의 피드백 루프를 가속화하여 성능 고도화의 속도를 높이는 핵심 동력으로 작용할 가능성이 크며, 이는 곧 실무 코드에 적용될 AI 에이전트의 신뢰도와 직결되는 지점이다.

구체적인 제품 라인업의 배포는 구독 등급과 지역에 따라 단계적으로 진행된다. 텍스트와 이미지, 동영상을 조합해 고품질 영상을 생성하는 제미나이 옴니(Gemini Omni)는 오늘부터 구글 AI 플러스(Plus), 프로(Pro), 울트라(Ultra) 구독자를 대상으로 순차 출시된다. 이와 동시에 이용자의 일정을 트래킹하고 우선순위를 제안하는 맞춤형 요약 서비스인 데일리 브리프(Daily Brief)는 미국 시장을 시작으로 모든 구글 AI 구독자에게 제공된다. 이는 고성능 모델의 접근 권한을 유료 구독자에게 우선 배정함으로써 서비스 안정성을 확보하고 수익 모델을 공고히 하려는 전략으로 분석되며, 기업용 워크플로우에 도입되기 전의 전초 단계로 해석된다.

이용자의 지시 아래 실질적인 업무를 수행하는 능동형 에이전트인 제미나이 스파크(Gemini Spark)의 경우 보다 신중한 배포 일정을 따른다. 제미나이 3.5를 기반으로 구동되는 스파크는 이번 주 신뢰할 수 있는 테스터들을 대상으로 먼저 출시되며, 다음 주에는 미국 내 울트라 구독자들에게 베타 버전이 제공될 예정이다. 스파크는 단순한 질의응답을 넘어 워크스페이스와 연동되어 백그라운드에서 업무를 수행하는 에이전트 특성을 가지므로, 제한된 사용자 그룹을 통한 검증 단계가 필수적인 것으로 보인다. 특히 클라우드 기반으로 작동하여 노트북을 덮거나 스마트폰 화면이 잠겨 있어도 작업을 이어가는 구조적 특징이 실제 업무 환경에서 어떻게 작동하는지 관찰하는 과정이 포함될 것으로 제안된다.

데스크톱 환경으로의 확장 역시 구체적인 로드맵이 제시되었다. 맥OS(macOS, 애플의 맥 컴퓨터용 운영체제)용 제미나이 앱은 오늘부터 모든 이용자가 다운로드하여 사용할 수 있다. 다만 앱 내에서 로컬 파일 작업을 돕는 제미나이 스파크 기능과 정교한 초안 변환을 지원하는 음성 이해 기술은 이번 여름 말에 출시될 예정이다. 이는 앱의 기본 인터페이스를 먼저 보급하여 사용자 접점을 확보한 뒤, 연산 부하가 크거나 정교한 제어가 필요한 핵심 기능을 순차적으로 업데이트하는 방식이다. 결과적으로 구글은 웹과 모바일을 넘어 데스크톱 OS 영역까지 제미나이 3.5의 영향력을 확장하여 범용 어시스턴트로서의 지위를 굳히려는 구상을 구체화하고 있다.

안티그래비티 하네스와 MCP를 통한 에이전트 구동 구조

개발자가 바로 체감하는 변화는 응답 속도보다 제어권이다. 제미나이 스파크(Gemini Spark)는 제미나이 3.5 모델을 기반으로 구동되며 안티그래비티 하네스(Antigravity harness, 에이전트 실행 프레임워크)를 통해 동작 구조를 설계했다. 기존의 AI 어시스턴트가 사용자의 실시간 입력과 기기의 활성화 상태에 의존했다면, 스파크는 클라우드 기반 에이전트로 설계되어 실행 주체가 기기 외부로 옮겨진 점이 관찰된다. 이는 노트북을 덮거나 스마트폰 화면이 잠긴 상태에서도 백그라운드에서 작업이 중단 없이 수행될 수 있음을 의미한다. 클라이언트의 세션 유지 여부와 상관없이 서버 사이드에서 태스크의 상태가 관리되므로, 장시간이 소요되는 복잡한 워크플로우를 처리하는 데 최적화된 구조를 갖췄다고 분석된다.

외부 앱과의 연결 방식에서는 MCP(Model Context Protocol, 모델 컨텍스트 프로토콜)라는 표준화된 규격이 핵심적인 역할을 수행한다. MCP는 모델이 외부 데이터나 도구에 접근하는 방식을 표준화하여, 개별 앱마다 서로 다른 API를 일일이 구현해야 했던 기존의 파편화된 통합 방식을 개선한다. 현재 캔바(Canva), 오픈테이블(OpenTable), 인스타카트(Instacart)와의 MCP 연동이 시작되었으며, 이를 통해 에이전트가 단순히 정보를 읽어오는 수준을 넘어 외부 서비스의 기능을 직접 제어하는 실행력을 확보하게 된다. 이는 개발 관점에서 볼 때 특정 서비스에 종속된 플러그인 구조에서 벗어나, 표준 프로토콜을 준수하는 모든 앱으로 생태계를 빠르게 확장할 수 있는 기반을 마련한 것으로 제안된다.

향후 로드맵에서는 제어의 범위가 클라우드 앱을 넘어 로컬 환경으로 확장될 계획이다. 로컬 브라우저 제어 기능이 추가되면 웹 기반의 모든 인터페이스를 에이전트가 직접 조작할 수 있게 되며, 이는 API가 제공되지 않는 레거시 시스템까지 제어 범위에 포함시킬 수 있는 가능성을 시사한다. 더불어 맞춤형 하위 에이전트 생성 기능이 도입되면, 복잡한 메인 태스크를 세분화하여 각각의 전문성을 가진 하위 에이전트들에게 할당하는 계층적 구조의 오케스트레이션이 가능해진다. 이러한 구조적 진화는 AI가 단순한 도구를 넘어, 독립적인 판단과 실행력을 갖춘 가상 운영체제와 같은 역할을 수행하게 되는 과정으로 해석된다.

'뉴럴 익스프레시브'와 제미나이 라이브의 통합 인터페이스 변화

사용자가 제미나이 앱을 실행했을 때 가장 먼저 체감하는 변화는 시각적 요소보다 손끝의 감각이다. 구글이 도입한 뉴럴 익스프레시브(Neural Expressive, 신경망 기반의 표현력 있는 디자인 언어)는 단순한 심미적 개선을 넘어 햅틱 피드백과 애니메이션, 신규 타이포그래피를 통해 AI와의 상호작용을 물리적 경험으로 확장한다. 기존의 LLM(거대언어모델) 인터페이스가 텍스트 입력창과 응답 텍스트의 단순 반복이었다면, 이번 변화는 사용자가 AI의 상태를 촉각과 시각적 리듬으로 인지하게 만든다는 점에서 차이가 관찰된다. 이는 인터페이스가 단순한 도구를 넘어 사용자의 감각과 동기화되는 방향으로 진화하고 있음을 시사한다.

인터페이스의 통합 수준은 제미나이 라이브(Gemini Live)의 앱 직접 통합에서 더욱 구체화된다. 이전에는 텍스트 모드와 음성 모드가 분리되어 모드 전환 시 맥락의 단절이 발생했으나, 이제는 타이핑 도중 자연스럽게 대화로 전환하고 다시 텍스트로 돌아오는 유연한 모달리티 전환이 구현되었다. 특히 새롭게 설계된 마이크 기능은 사용자가 말을 멈추거나 생각을 정리하는 속도에 맞춰 화면을 탭하며 아이디어를 덧붙일 수 있게 하여, 기계적인 턴제 대화가 아닌 인간의 실제 대화 흐름을 모사한다. 이러한 설계는 AI와의 소통 장벽을 낮추고 실시간 협업의 효율성을 높이는 실무적 가치를 제공한다.

답변을 제공하는 방식 역시 텍스트 중심의 선형적 구조에서 벗어나 다차원적인 구성으로 진화했다. 제미나이 3.5 모델을 기반으로 한 응답은 단순한 문장 나열이 아니라 풍부한 이미지, 대화형 타임라인, 나레이션이 포함된 영상, 그리고 역동적인 그래픽의 조합으로 출력된다. 이는 사용자가 정보를 읽는 행위에서 시각적으로 탐색하는 행위로 전환됨을 의미하며, 복잡한 정보의 구조화 방식을 AI가 직접 결정하여 최적의 형태로 제시하는 단계에 진입했음을 보여준다. 정보의 전달 효율성 측면에서 텍스트보다 그래픽과 영상의 조합이 훨씬 높은 인지 속도를 제공한다는 점이 반영된 결과로 분석된다.

맥OS용 앱에서 구현된 음성 경험은 인터페이스의 정교함을 한 단계 더 끌어올린다. 대화 중 무의식적으로 발생하는 음, 저기 같은 추임새를 시스템 수준에서 제거하고, 화면상의 맥락을 분석해 사용자의 발화를 정교한 초안으로 변환하는 기능이 도입되었다. 이는 음성 인식의 정확도를 넘어 사용자의 의도를 파악해 적절한 서식과 형태로 텍스트를 재구성하는 맥락 기반의 처리 능력을 보여준다. 향후 지역별 방언 지원이 추가되면 개인화된 자연스러운 음성 제공이 가능해지며, 이는 AI가 특정 언어의 표준을 강요하는 것이 아니라 사용자의 문화적 맥락에 맞춘 최적의 인터페이스를 구축하는 방향으로 나아가고 있음을 증명한다.

24시간 백그라운드 에이전트가 바꾸는 워크플로우의 실질적 변화

기존의 업무 시작 방식은 사용자가 직접 지메일을 열어 긴급 메일을 확인하고 캘린더의 일정을 대조하는 수동적인 과정이었다. 이번 업데이트에서 도입된 데일리 브리프는 이러한 파편화된 확인 절차를 백그라운드 자동화 영역으로 옮긴다. 제미나이가 연결된 앱들을 통해 긴급 메일을 취합하고 회의 일정을 트래킹하며 후속 조치가 필요한 정보를 우선순위에 따라 정리해 제공하는 방식이다. 이는 단순한 텍스트 요약을 넘어 사용자가 인지해야 할 핵심 과업을 선제적으로 제안한다는 점에서 기존의 수동적 어시스턴트와 궤를 달리하는 지점으로 관찰된다.

실질적인 업무 대행의 핵심은 제미나이 스파크(Gemini Spark)의 능동적 작동 방식에서 구체화된다. 제미나이 3.5를 기반으로 구동되는 이 에이전트는 지메일, 구글 문서, 프레젠테이션 등 워크스페이스 환경과 매끄럽게 연동되어 사용자의 지시를 수행한다. 특히 클라우드 기반으로 설계되어 노트북을 덮거나 스마트폰 화면이 잠긴 상태에서도 백그라운드에서 작업을 지속한다는 점이 실무적 가치를 더한다. 사용자가 프롬프트를 입력하고 결과를 기다리는 동기식 구조에서, 목표를 설정하면 에이전트가 처리하고 결과만 보고하는 비동기식 제로 터치(Zero-touch) 워크플로우로의 전환이 가능해지는 구조다.

이러한 자동화의 범위는 문서 작업을 넘어 시각적 콘텐츠 생성과 OS 레벨의 제어까지 확장된다. 제미나이 옴니는 프롬프트만으로 줌인 효과나 배경 변경을 수행하고 맞춤형 AI 아바타를 생성하는 등 고도의 영상 편집 작업을 대화형 인터페이스로 대체한다. 동시에 맥OS용 제미나이 앱은 로컬 파일 관련 작업 보조와 데스크톱 전반의 워크플로우 자동 처리를 지원하며 에이전트의 활동 반경을 브라우저 외부로 넓힌다. 이는 AI가 특정 서비스의 기능에 머물지 않고 사용자의 컴퓨팅 환경 전체를 조망하며 파일을 다루는 운영체제 수준의 에이전트로 진화하고 있음을 시사한다.

다만 완전한 자율성이 가져올 리스크를 제어하기 위해 설계된 안전 장치는 실무 도입의 필수적인 전제 조건으로 분석된다. 결제 처리나 외부 이메일 발송과 같이 되돌리기 어려운 중요 작업에 대해서는 반드시 사용자의 최종 승인 절차를 거치도록 설계되었다. 이는 AI에게 모든 권한을 위임하는 것이 아니라, 판단과 실행의 중간 단계에 인간의 검토를 배치하는 휴먼 인 더 루프(Human-in-the-loop) 구조를 채택한 결과다. 결과적으로 사용자는 단순 반복 작업에서 해방되면서도 최종 제어권은 유지하는 효율적인 협업 구조를 통해 업무의 안정성과 속도를 동시에 확보하게 된다.

한국 AI 실무자가 주목해야 할 MCP 생태계와 에이전트 인터페이스

이번 업데이트에서 먼저 바뀐 건 도구 연결 방식이다. 과거에는 개별 서비스의 API 명세서를 분석해 맞춤형 커넥터를 일일이 개발해야 했으나, 이제는 MCP(Model Context Protocol, 모델 컨텍스트 프로토콜)라는 표준을 통해 서드파티 서비스 통합이 가속화된다. 캔바(Canva), 오픈테이블(OpenTable), 인스타카트(Instacart)와 같은 서비스들이 이 생태계에 편입되면서 에이전트가 수행할 수 있는 실행 능력의 범위가 비약적으로 확장되는 양상이 관찰된다. 실무자 관점에서 이는 개별 API 호출 코드를 작성하는 시간보다 에이전트가 도구를 선택하고 활용하는 오케스트레이션 로직을 설계하는 것이 더 중요해짐을 의미하며, 6개월 뒤의 코드베이스는 정적인 API 래퍼보다 동적인 프로토콜 인터페이스 중심으로 재편될 가능성이 높다.

사용자 인터페이스 역시 단순한 채팅창의 형태를 벗어나 뉴럴 익스프레시브(Neural Expressive)라는 새로운 디자인 언어로 재편된다. 텍스트 기반의 답변에 머물지 않고 이미지, 대화형 타임라인, 나레이션 영상, 역동적 그래픽이 실시간으로 구성되어 출력되는 인터페이스가 실무에 적용될 가능성이 높다. 특히 제미나이 라이브(Gemini Live)의 통합으로 텍스트 입력과 음성 대화가 끊김 없이 교차하는 경험이 제공되며, 모바일 환경의 햅틱 피드백까지 결합되어 사용자 체감 성능을 높인다. 이는 AI 서비스의 UX 설계 시 단일 모달리티가 아니라 상황에 따라 최적의 출력 형태를 결정하는 동적 인터페이스 설계 능력이 필수적으로 요구됨을 시사한다.

더 나아가 로컬 브라우저 제어와 맞춤형 하위 에이전트 생성 기능은 복잡한 업무 자동화 파이프라인의 구조를 근본적으로 바꾼다. 기존의 자동화가 정해진 시퀀스를 따르는 매크로 방식이었다면, 이제는 상위 에이전트가 목적에 맞는 하위 에이전트를 생성해 작업을 분배하고 브라우저를 직접 조작해 결과를 도출하는 계층적 구조로 진화한다. 이러한 변화는 개발자가 작성해야 할 코드의 성격이 단순한 기능 구현에서 에이전트 간의 협업 프로토콜 정의와 권한 관리 체계 구축으로 이동하고 있음을 보여준다. 특히 백그라운드에서 작업을 지속하는 클라우드 기반 에이전트의 특성은 세션 유지 방식과 상태 관리 로직의 전면적인 수정을 요구한다.

한국 시장의 특수성을 고려할 때 방언 지원을 포함한 로컬라이제이션 강화는 사용자 경험 최적화의 핵심 변수가 된다. 단순한 번역 수준을 넘어 지역별 언어 습관과 문화적 맥락을 반영한 자연스러운 음성 제공은 B2C 서비스의 진입 장벽을 낮추는 실질적인 도구가 된다. 한국어 사용자의 미묘한 의도 파악과 정교한 초안 변환 능력이 결합된다면, 실무 현장에서의 AI 도입률은 단순 생산성 도구를 넘어 개인화된 업무 파트너 수준으로 격상될 것으로 제안된다. 이는 한국어 특유의 맥락 의존성을 해결하는 프롬프트 엔지니어링을 넘어, 모델 수준의 로컬라이제이션이 실질적인 비즈니스 가치로 전환되는 지점이 된다.