Gemini 3.5 Flash, 별도 모델 없이 '컴퓨터 제어' 기본 탑재

Gemini 3.5 Flash에 내장된 컴퓨터 제어 기능

사용자가 ChatGPT나 Gemini 같은 AI와 채팅하며 정보를 찾거나 문서 초안을 작성하는 경험은 이미 일상적인 활동이 되었다. 구글은 이러한 텍스트 기반 상호작용을 넘어 AI가 직접 시스템을 조작하는 환경을 구축하기 위해 Gemini 3.5 Flash 모델에 컴퓨터 제어(Computer Use, AI가 화면을 인식하고 마우스와 키보드를 조작하는 기능) 기능을 빌트인 도구로 탑재했다. 개발자는 이제 3.5 Flash를 활용해 브라우저, 모바일, 데스크톱 환경 전반에서 화면을 보고(See), 상황을 추론하며(Reason), 실제 행동을 취하는(Take action) 맞춤형 에이전트를 신뢰성 있게 구축할 수 있다. 이는 AI가 단순한 정보 제공자를 넘어 플랫폼 간 상호작용을 직접 수행하는 실행자로 진화했음을 의미한다.

전용 모델에서 메인 모델로의 네이티브 통합

구글은 기존에 Gemini 2.5 computer use라는 별도의 전용 모델로만 제공하던 제어 기능을 메인 모델인 Gemini 3.5 Flash에 네이티브하게 통합했다. 이러한 통합 구조는 에이전트 기반의 컴퓨터 제어 작업에서 이전보다 더 높은 성능을 제공하며, 개발자가 별도의 모델을 교체 호출할 필요 없이 단일 모델 내에서 모든 프로세스를 처리하게 만든다. Gemini 3.5 Flash는 이미 함수 호출(Function Calling, 모델이 외부 도구를 실행하기 위해 필요한 인자를 생성하는 기능)과 Search 및 Maps 그라운딩(외부 정보 연결) 같은 빌트인 도구 활용 능력을 갖추고 있다. 개발자는 이처럼 기존의 강력한 도구들과 새롭게 내장된 컴퓨터 제어 기능을 결합해 에이전트의 실행 범위를 획기적으로 넓힐 수 있다.

기업용 자동화 구현을 위한 실무 적용 범위

개발자와 기업은 Gemini API와 Gemini Enterprise Agent Platform(기업용 에이전트 구축 플랫폼)을 통해 Gemini 3.5 Flash의 컴퓨터 제어 기능을 즉시 도입할 수 있다. 이 모델은 연속적인 소프트웨어 테스트나 전문 애플리케이션 간의 지식 작업과 같은 롱 호라이즌(Long-horizon, 여러 단계의 복잡한 과정을 거쳐 목표를 달성하는 장기 작업) 자동화 작업에서 향상된 성능을 발휘한다. 실제 적용 사례로 Gemini 3.5 Flash는 컴퓨터 제어 기능을 사용해 Gemini 앱 자체를 분석하고 각 기능이 분류된 리스트를 반환하는 작업을 수행한다. 또한 모델이 스스로 자신의 기술 문서(Documentation)를 검토하여 웹 접근성(Accessibility) 이슈를 찾아내는 감사 작업을 수행함으로써, 복잡한 기업용 워크플로우의 자동화 난이도를 실질적으로 낮췄다.

프롬프트 인젝션 방어와 다층 보안 체계

구글은 라이브 환경에서 작동하는 에이전트가 악의적인 입력값으로 지침을 무력화하는 프롬프트 인젝션(Prompt Injection) 위험에 노출되는 것을 막기 위해 Gemini 3.5 Flash에 타겟 적대적 훈련(Targeted Adversarial Training, 특정 공격 패턴을 미리 학습시켜 방어력을 높이는 기법)을 적용했다. 기업 사용자를 위해서는 보안 가이드라인에 따라 AI의 행동 범위를 제한하는 두 가지 선택적 엔터프라이즈 세이프가드(Safeguard, 안전장치) 시스템을 함께 제공한다. 구글은 보안 강화를 위해 다층 방어(Defense-in-depth, 여러 겹의 보안망을 구축하는 방식) 전략을 권장하며, 이를 위해 보안 샌드박싱(Secure Sandboxing, 외부와 격리된 가상 환경에서 프로그램을 실행하는 기술)과 인간 개입 확인(Human-in-the-loop, 중요 결정 단계에서 사람이 최종 승인하는 절차), 그리고 엄격한 접근 제어를 결합하도록 안내한다. 이러한 보안 인프라의 구축 수준은 전문 앱 간 데이터 이동과 같은 고난도 기업 자동화를 실제 환경에 적용할 때 결정적인 판단 기준이 된다.