AI 거물 카파시 앤스로픽 합류, 제미나이 3.5 플래시 전격 출시

01인재 이동과 자율형 AI의 진화: 구글과 앤스로픽의 격돌

AI 업계의 인재 지형이 요동치고 있다. 안드레 카파시가 앤스로픽에 합류한 가운데, 구글은 제미나이 3.5 플래시(Flash)와 옴니(Omni)를 전격 공개했다. 특히 새로운 플래시 모델은 컴퓨터 환경을 스스로 제어하는 자율형 운영체제 개발에 투입됐다. AI가 단순한 보조 도구를 넘어 시스템 관리자로 진화하고 있다는 신호다. 개발 현장에서도 변화가 빠르다. Codex는 작업 흐름(workflow)을 체계화해 결과물의 신뢰도를 높였으며, 최신 성능 시험(benchmark)에서는 구글의 코딩 에이전트가 GPT-5.5를 앞질렀다. 여기에 Vapi와 Hermes가 모델 컨텍스트 프로토콜(Model Context Protocol)로 통합되며, 서로 다른 AI 도구 간의 데이터 공유 장벽이 낮아졌다.

시장의 실전 적용 사례와 철학적 논쟁도 뜨겁다. Hyperliquid에 도입된 트레이딩 에이전트와, 텍스트 기반의 범용 인공지능(AGI) 경로를 주장하는 그렉 브록먼의 최신 논의를 짚어본다. 구글 검색의 AI 개요(AI Overviews) 확산과 더불어, AI 성능을 측정하는 기준 자체가 바뀌고 있다. AI가 다른 AI의 결과물을 채점하는 'AI 판사(LLM-as-a-Judge)' 방식과 총소유비용(TCO) 지표가 핵심으로 떠올랐다. 아울러 제미나이에 도입된 선제적 에이전트와, 기기 자체에서 고성능 지능을 구현하는 Gemma 4의 출시가 온디바이스 AI의 새로운 기준을 제시한다.

02AI가 스스로를 설계한다 — 안드레 카파시, 앤스로픽 합류

오픈AI 창립 멤버이자 AI 업계의 상징적 인물인 안드레 카파시가 앤스로픽에 합류했다. 이번 영입은 앤스로픽이 단순한 모델 개발을 넘어, 스스로 진화하는 자율 시스템으로 방향을 틀었음을 의미한다. 카파시의 핵심 임무는 모델의 '사전 학습(pre-training)' 단계에서 재귀적 자기 개선(recursive self-improvement)을 구현하는 것이다. 사전 학습이란 AI가 방대한 데이터를 통해 언어와 논리의 기본 패턴을 익히는 기초 공사 단계다. 여기에 재귀적 개선을 도입한다는 것은 AI가 자신을 만드는 과정 자체를 스스로 다듬는 피드백 루프를 구축하겠다는 뜻이다. AI가 자신의 설계도를 직접 수정하기 시작했다.

핵심은 앤스로픽의 모델인 클로드를 활용해 클로드 자신의 사전 학습 연구를 가속하는 것이다. 이제는 인간 엔지니어가 일일이 알고리즘을 수정하고 데이터를 고르는 방식에서 벗어나, 클로드의 지능을 이용해 학습 과정을 더 빠르고 효율적으로 만드는 방법을 찾는다. AI를 일종의 '설계자'로 활용해 스스로 학습의 빈틈을 분석하고, 다음 세대 모델을 위한 최적의 방안을 제안하게 만드는 전략이다. 성공한다면 고도화된 지능에 도달하는 데 드는 시간과 비용을 획기적으로 줄일 수 있다. 인간의 손길을 덜어내고 효율을 극대화하는 전략이다.

이는 AI 개발의 과학 자체를 자동화하려는 업계의 거대한 전환점을 보여준다. 지금까지의 경쟁이 단순히 모델의 덩치를 키우는 '규모의 경제'였다면, 카파시가 집중하는 지점은 학습 과정 자체의 '지능'이다. 기술적 한계를 돌파하는 것이 곧 혁신의 유일한 길이라는 믿음이 깔려 있다. 다만 과제는 남는다. 기술적 난제를 푸는 데 천재적인 모델이, 정작 복잡한 현실 세계의 맥락까지 이해해 사회적으로 의미 있는 진보를 이뤄낼 수 있을지는 별개의 문제이기 때문이다. 기술적 천재성이 곧 사회적 유용성을 보장하지는 않는다.

03개발자 수개월 걸릴 운영체제 구축, AI가 12시간 만에 끝냈다

구글이 AI가 컴퓨팅 소프트웨어의 가장 기초적인 층을 스스로 설계하고 구축할 수 있다는 사실을 증명했다. 제미나이 3.5 Flash와 '안티 그래비티(anti-gravity)'라는 시스템을 활용해, 단 12시간 만에 완전히 작동하는 운영체제(OS)를 무에서 유로 만들어낸 것이다. 단순한 애플리케이션 수준이 아니다. 파일 시스템, 메모리 관리, 스케줄러 등 다른 소프트웨어가 구동될 수 있게 하는 핵심 설계도(architecture)를 모두 구현했다. 93개의 자율형 보조 AI(sub-agents)가 팀을 이뤄 코드 생성부터 검수, 최종 테스트까지 전 과정을 병렬로 처리한 결과다. 개발의 상식이 깨졌다.

이 과정에서 보여준 효율성은 소프트웨어 공학의 패러다임이 바뀌고 있음을 시사한다. 자율형 AI 팀은 26억 개의 토큰을 처리하고 1만 5천 번 이상의 모델 요청을 보냈지만, 전체 비용은 API 크레딧 기준 1,000달러 미만이었다. 숙련된 개발자들이 수개월간 매달려야 하는 고된 작업을 단돈 130만 원 정도로 해결한 셈이다. 이는 제미나이 3.5 Flash가 기존 최첨단 모델보다 4배 빠르고, 그래비티 최적화 버전은 프로급 모델보다 12배나 빠르게 결과물을 내놓기 때문에 가능하다. 이제 속도는 더 이상 변수가 아니다.

이런 압도적 성능의 배경에는 하드웨어 칩부터 최종 서비스까지 모두 직접 통제하는 구글의 수직 계열화 전략이 있다. 특히 학습과 추론(inference) 과정을 전담하는 칩을 분리한 8세대 TPU 칩을 도입해 AI 운영 비용을 획기적으로 낮췄다. 이는 백그라운드에서 24시간 끊임없이 작동해야 하는 자율형 AI 시대에 결정적인 생존 전략이 된다. 실제로 하루 1조 개의 토큰을 처리하는 대기업이 업무량의 80%를 제미나이 3.5 Flash로 전환하면 연간 최대 10억 달러의 비용을 절감할 수 있다. 비용 절감이 곧 성능 경쟁력이 되는 시대다. 이러한 변화는 이미 구글 검색에 적용되어, 사용자가 직접 검색어를 입력하는 도구에서 사용자를 대신해 데이터를 상시 모니터링하는 정보 에이전트로 진화하고 있다.

04AI가 코드를 짜고 사람은 감독만 한다 — 운에 맡기던 코딩이 설계로 바뀐다

AI로 소프트웨어를 만드는 과정은 그동안 일종의 도박이었다. 정교한 엔지니어링 계획보다는 프롬프트를 어떻게 입력하느냐라는 '운'에 결과물의 품질이 결정됐기 때문이다. Codex는 이런 불확실성을 없애기 위해 추측이 아닌 엄격한 문서화 과정을 거치는 구조적 작업 흐름(workflow)을 도입했다. 코드를 한 줄이라도 쓰기 전에 네 가지 핵심 설계 문서를 먼저 작성하게 함으로써, 파편화된 기능의 나열이 아닌 완성도 높은 제품을 만들어낸다. 이제 AI는 단순한 채팅창을 넘어 훈련된 엔지니어링 도구로 진화했다. 상위 계획부터 세부 설계, 구현 가이드까지 단계적으로 내려가며 기술 스택과 데이터 모델, 데이터베이스 구조를 명확히 정의한 뒤에야 실제 구축에 들어간다. 코딩은 이제 운이 아니라 설계의 영역이다.

작업 흐름은 일관성을 유지하기 위해 엄격한 순서를 따른다. 먼저 계획을 세우고, 설계 문서, 스타일 설계 문서를 작성한 뒤, 마지막으로 자율 행동 지침서(agents.md) 파일을 만든다. 특히 이 지침서는 장기적인 유지보수에서 핵심적인 역할을 한다. AI가 동일한 실수를 반복하지 않도록 만드는 영구적인 시스템 규칙서이기 때문이다. 개발자가 원칙과 가이드라인을 명시적으로 정의해두면, AI는 시간이 흐를수록 더 똑똑하게 작동한다. 개발 과정에서 AI가 이전의 제약 조건을 잊어버리거나 똑같은 버그를 계속 만들어내는 고질적인 문제를 해결한 것이다. AI가 같은 실수를 반복하지 않게 만드는 안전장치를 구축한 셈이다.

문서화를 넘어 Codex는 '목표(Goal)' 기능을 통해 처음부터 끝까지 자율적으로 구현하는 단계까지 나아갔다. 개발자가 코드 한 줄 한 줄을 가이드할 필요 없이, "남은 기능을 모두 구현하고 클라우드 호스팅 플랫폼인 Vercel에 배포하라" 같은 상위 수준의 목표만 설정하면 된다. 필요한 API 키만 제공되면 시스템이 스스로 구현과 검증 과정을 처리한다. AI는 정의된 작업 흐름에 따라 작업을 수행하며, 최종 성공 결과가 나올 때까지 멈추지 않는다. 개발자의 역할이 수동으로 코드를 치는 '코더'에서 전체를 조율하는 '프로젝트 매니저'로 완전히 바뀐다.

05점수보다 실전 — 구글 AI가 GPT-5.5보다 버그 없는 앱을 더 빨리 만든다

구글의 최신 AI 모델들이 기존 업계 테스트 결과보다 실제 소프트웨어 구현 능력이 더 뛰어나다는 사실이 드러나고 있다. 단순한 성능 지표(benchmark) 점수에서는 항상 1위를 하지 못할지 모르지만, 복잡한 다단계 코딩 작업을 스스로 처리해 완성품을 만들어내는 '자율형 AI(agent)'로서의 역량은 압도적이다. 최근 테스트에서 구글 모델은 한 시간도 안 되어 음악 기반의 인터랙티브 어드벤처 게임을 뚝딱 만들어냈다. 놀라운 점은 구글이 이 모델을 전문 코딩 도구로 내세우지 않았음에도, 동일한 과제에서 GPT-5.5보다 버그가 적었다는 것이다. 실전 능력이 점수를 압도했다.

테스트 점수와 실제 활용도 사이의 이런 간극은, AI 지능 순위를 매기는 기존의 인위적인 분석 방식이 실제 성능을 제대로 반영하지 못하고 있음을 시사한다. 창의적인 아이디어를 빠르게 구현하는 능력을 측정하는 이른바 '감각적 코딩(vibe coding)' 테스트에서 제미나이 3.5 Flash는 GPT-5.5나 클로드 Opus 4.7 같은 경쟁 모델보다 낮은 성적을 거뒀다. 하지만 이런 수치는 실제로 작동하는 인터랙티브 앱을 만드는 효율성을 모두 담아내지 못한다. 상식적인 논리와 함정 질문을 다루는 '심플 벤치(Simple Bench)' 같은 다른 테스트에서 제미나이 3.5 Flash는 매우 우수한 성적을 냈으며, 이는 실무 지능이 순위표보다 훨씬 탄탄하다는 증거다.

코드의 품질만큼이나 중요한 것이 결과물을 내놓는 속도다. 제미나이 3.5 Flash는 비슷한 성능의 다른 모델들보다 초당 생성하는 텍스트 단위(token)의 양이 훨씬 많다. 빠른 출력 속도와 버그 없는 복잡한 경험을 만들어내는 능력이 결합되면서, AI 코딩 능력을 측정하는 기준 자체가 바뀌고 있다. 자주 인용되는 성능 지표는 계속 변하지만, 한 시간 안에 실제로 작동하는 게임을 만들어내는 능력은 변하지 않는 실질적인 유용성의 지표가 된다. 결국 사용자들은 현재의 순위표와 상관없이, 빠른 시제품 제작(prototyping)과 창의적 개발 단계에서 구글의 도구가 더 실용적이라고 느낄 가능성이 크다. 이제는 점수가 아니라 결과물로 말하는 시대다.

06말 한마디면 끝, AI가 알아서 전화 걸고 영업까지 한다

Vapi와 Hermes가 모델 컨텍스트 프로토콜(MCP)을 통해 통합됐다. 이제 사용자는 복잡한 기술 대시보드를 일일이 조작할 필요 없이, 간단한 영어 명령만으로 정교한 전화 리서치와 고객 접촉 업무를 자동화할 수 있다. Vapi가 전화번호 관리, 통화 기록, 음성 설정 같은 통신 인프라라는 '몸'을 제공한다면, Hermes는 목표 설정과 기억, 능동적 의사결정을 수행하는 '두뇌' 역할을 한다. 이 프로토콜 덕분에 Hermes는 사용자를 대신해 Vapi 대시보드 내에서 새로운 음성 비서를 만들거나 통화 로그를 분석하는 작업을 직접 수행한다. 기술적 장벽이 사라졌다.

실질적인 변화는 업무 흐름(workflow)이 완전히 자율형으로 전환된다는 점이다. 예를 들어, 사용자가 Hermes에게 "맨해튼에 있는 마사지 샵을 조사해서 전화번호를 찾고, Vapi로 전화를 걸어 예약 가능 여부를 확인해 줘"라고 지시하는 식이다. 단순 업무를 넘어, 뉴저지의 세차장들을 대상으로 콜드콜을 돌리는 특화 비서를 구축하는 것도 가능하다. 사용자는 디스코드, 왓츠앱, 터미널 같은 익숙한 환경에서 채팅만으로 이 모든 과정을 관리한다. AI가 모든 기술적 설정을 도맡는 '운영자'가 된 셈이다.

기업은 이제 문장 하나로 고도화된 고객 접촉 시스템을 구축할 수 있다. Hermes가 보유한 82가지의 사전 구축 기술을 활용하면, SQL 데이터베이스를 자동으로 생성하고 10분이나 15분 간격으로 잠재 고객에게 전화를 거는 예약 작업(cron job)까지 설정한다. 여기에 Vapi의 세밀한 제어 기능이 더해져 음성 톤과 응답 속도를 조절하고, 사무실 배경 소음을 추가해 통화의 자연스러움을 높인다. 전화기가 단순한 통신 도구를 넘어, 벤처캐피털에 스타트업을 피칭하거나 잠재 고객을 발굴하는 자율형 에이전트로 진화했다.

07말로 영상 만들고 복잡한 표까지 분석한다 — 제미나이 3.5 플래시와 옴니 공개

구글이 디지털 미디어 제작과 편집의 판도를 바꾸는 새로운 도구를 선보였다. 구글 서비스 전반에 적용되는 옴니(Omni) 제품군의 첫 모델, '제미나이 옴니 플래시'가 그 주인공이다. 이제 사용자는 복잡한 편집 프로그램 대신 일상적인 대화만으로 영상을 만들거나 수정할 수 있다. 텍스트, 이미지, 영상, 오디오를 동시에 처리하는 멀티모달(multimodal) 능력을 갖췄기 때문이다. 편집의 중심이 딱딱한 소프트웨어에서 유연한 대화형 경험으로 옮겨갔다.

옴니 제품군과 함께 공개된 '제미나이 3.5 플래시'는 속도와 지능의 균형을 극대화한 모델이다. 성능 시험 결과, 이전 모델인 제미나이 3.1 프로를 거의 모든 지표에서 앞질렀다. 특히 코딩과 경제적 가치가 높은 작업에서 비약적인 발전을 보였으며, 이는 GDP val 벤치마크 점수로 증명됐다. 특히 AI가 스스로 판단해 복잡한 프로그래밍을 수행하는 자율형 코딩(agentic coding)과 장기 프로젝트, 실제 작업 흐름(workflow) 최적화에 특화됐다. 목표를 놓치지 않고 긴 작업 과정을 완수해야 하는 개발자에게 강력한 무기가 될 것이다.

코딩뿐만 아니라 복잡한 시각 데이터 해석 능력도 탁월하다. 학술 논문의 복잡한 차트와 표를 분석해 정보를 종합하는 'Charkhive' 추론 시험에서 84.2%라는 압도적인 점수를 기록했다. 다른 모델들을 모두 제치고 정밀한 데이터 시각화 분석 능력을 입증한 셈이다. 연구원이나 금융 전문가들에게는 복잡한 논문 내용을 명확한 요약본으로 빠르게 변환해 주는 도구가 생긴다. 가공되지 않은 데이터와 실질적인 인사이트 사이의 간극이 사라진다.

08투자자가 직접 버튼 안 누른다 — AI가 분석부터 주문까지 전담

투자의 패러다임이 사람의 손끝에서 소프트웨어의 자율 실행으로 옮겨가고 있다. Hyperliquid는 최근 리서치부터 최종 주문까지 투자 전 과정을 스스로 처리하는 자율형 AI(agent) 시스템을 도입했다. 이제 투자자는 차트를 뚫어지게 쳐다보며 매수·매도 버튼을 누를 필요가 없다. AI가 미리 설정된 논리와 분석 데이터를 바탕으로 즉각 움직이기 때문이다. 투자의 주체가 사람이 아닌 코드로 바뀌었다.

작동 방식은 간단하다. 사용자 계정을 만들고 소프트웨어 인터페이스(API)를 통해 플랫폼과 연결된 자율형 AI를 실행하면 된다. 연결이 완료되면 AI는 복잡한 주문도 순식간에 처리한다. 예를 들어, 엔비디아 주가가 하락할 때 수익을 얻는 '10배 공매도(10x short)' 포지션을 잡으라고 명령하면, AI가 즉시 주문을 넣고 체결 상태를 실시간으로 확인한다. 사람이 직접 클릭하며 발생하는 지연 시간이 사라지며, 특정 시간에 맞춰 전략을 실행하는 예약 매매도 가능해졌다. 찰나의 지연조차 허용하지 않는 속도전이다.

자동화를 넘어 투자 대상의 범위도 대폭 넓혔다. 과거에는 주로 가상자산 중심이었으나, 이제는 S&P 500 지수나 브렌트유 같은 전통 자산은 물론 오픈AI와 연동된 특수 자산까지 거래할 수 있다. 각 시장이 독립적으로 운영되기에 자율형 AI가 활동할 수 있는 무대가 매우 넓다. 투자자는 이제 직접 매매하는 '운영자'가 아니라, 여러 자산군을 동시에 관리하는 'AI 포트폴리오 매니저'로 역할이 바뀐다. 이제 투자는 '어떻게 매매하느냐'가 아니라 '어떤 AI를 관리하느냐'의 싸움이다.

09AI가 세상을 경험할 필요 없다 — 텍스트만으로 지능의 정점에 도달한다

오픈AI의 공동 창업자인 그레그 브록먼은 인간 수준의 지능을 가진 기계를 만드는 데 굳이 물리적 세계를 '보고' '느낄' 필요가 없다고 주장한다. 언어를 처리하고 생성하는 능력 자체가 인지적 도약을 이끄는 핵심 엔진이라는 관점이다. 즉, 고도의 추론 능력을 갖추기 위해 물리적 현실을 가상으로 체험하는 과정이 반드시 필요하지는 않다는 뜻이다. 언어만으로도 충분하다.

이는 AI가 우주를 진정으로 이해하려면 중력이나 운동 에너지 같은 직관적인 물리 법칙을 깨달아야 한다는 '세상 모델(world-model)' 접근법과 정면으로 충돌한다. 비오(VEO), Nano Banana, Genie 같은 시스템들이 현실적인 영상과 상호작용 시뮬레이션을 통해 이를 구현하려는 이유다. 텍스트만으로는 채울 수 없는 공간감과 물리적 이해도를 AI에게 학습시키려는 시도다. 보는 것과 읽는 것의 싸움이다.

하지만 브록먼은 텍스트 전용 모델만으로도 범용 인공지능(AGI)에 필수적인 '자기 개선'이 가능하다고 확신한다. 언어 속에 내재된 복잡한 패턴과 논리만으로도 시스템이 스스로 능력을 정교화하고 지능을 자율적으로 진화시킬 수 있다는 논리다. 이 이론적 대립의 결과에 따라 AI의 미래가 언어적 숙련도에 달렸을지, 아니면 물리 세계를 모사한 복잡한 다중 모드(multimodal) 시뮬레이션에 달렸을지가 결정된다. 브록먼의 말이 맞다면, AI는 시각적 매체나 상호작용 없이 오직 텍스트 정복만으로 가장 강력한 지능을 구현하게 된다. 결국 텍스트가 정답이 될 수 있다.

10AI가 검색을 대체하지 않고 더 키웠다 — 월 사용자 25억 명 돌파

구글 검색은 AI가 기존 서비스를 대체하는 위협이 아니라, 오히려 성장을 이끄는 엔진임을 증명하고 있다. AI가 전통적인 검색 행태를 갉아먹을 것이라는 우려와 달리, AI 개요(AI Overviews) 기능은 플랫폼의 영향력을 더 넓히는 결과로 이어졌다. 검색 결과의 AI 요약본을 제공하는 이 기능의 월간 활성 사용자 수(MAU)는 이미 25억 명을 넘어섰다. 더불어 검색 내 특화 AI 모드 역시 도입 1년 만에 월 사용자 15억 명을 돌파하며 빠르게 자리 잡았다. 사용자들이 독립적인 AI 챗봇으로 떠나는 대신, AI가 정보 탐색을 돕는 하이브리드 경험을 선택한 결과다. AI는 검색의 끝이 아니라 확장판이다.

이러한 폭발적 성장의 핵심 동력은 제미나이(Gemini) 3.5 Flash의 도입이다. 구글은 이 모델을 통해 성능과 비용의 최적 지점을 찾아냈다. 수십억 명이 사용하는 서비스에서 AI가 답변을 생성하는 추론(inference) 비용은 천문학적일 수밖에 없다. 제미나이 3.5 Flash는 비용 효율성을 극대화하도록 설계되어, AI 요약 기능이 요구하는 막대한 연산 부담이 사용자 경험을 해치거나 재무적 리스크로 이어지지 않게 막아준다. 덕분에 구글은 전 세계 사용자에게 복잡한 AI 요약을 제공하면서도 특유의 속도와 안정성을 유지하고 있다. 결국 AI 서비스의 승패는 비용 효율에서 갈린다.

구글이 이토록 빠르게 규모를 키울 수 있었던 바탕에는 '수직 계열화'라는 독보적인 구조적 강점이 있다. 컴퓨팅 파워를 빌리거나 외부 모델을 라이선스 방식으로 가져다 쓰는 경쟁사와 달리, 구글은 모든 단계를 직접 소유한다. 자체 AI 모델과 방대한 학습 데이터는 물론, 모델 구동에 최적화된 전용 하드웨어인 텐서 처리 장치(TPU)까지 모두 갖췄다. 하드웨어와 소프트웨어 계층을 동시에 통제하면서 운영 비용을 획기적으로 낮춘 것이다. 구글은 이 인프라를 통해 AI를 값비싼 실험 도구가 아닌 지속 가능한 공공 서비스(utility)로 전환했다. 인프라를 가진 자가 AI 시대의 규칙을 정한다.

11AI 평가의 기준이 바뀐다 — 답변 하나보다 '전체 작업 비용'이 핵심

기업들이 AI의 성공을 측정하는 방식이 바뀌고 있다. 이제는 답변 한 번에 드는 비용이 아니라, 전체 작업 비용(TCO, Total Cost of Ownership)을 따진다. 쉽게 말해, 어떤 업무를 시작해서 끝낼 때까지 투입되는 총지출을 의미한다. 이런 변화는 AI가 단순한 챗봇을 넘어, 백그라운드에서 스스로 작동하는 자율형 에이전트로 진화하고 있기 때문이다. 모델이 답변 하나를 내놓는 일반적인 질의와 달리, 자율형 에이전트는 목표 달성을 위해 여러 도구를 호출하고, 오류를 겪으며, 여러 번 재시도한다. 이제는 개별 상호작용의 가격보다 '일이 실제로 끝날 때까지' 드는 총비용이 훨씬 중요하다.

자율형 에이전트가 실제로 성공했는지 판단하기 위해, 개발자들은 AI가 AI를 평가하는 방식(LLM-as-a-judge)에 점점 더 의존하고 있다. 예를 들어 Langfuse 플랫폼은 이 방식으로 코딩 에이전트를 테스트한다. 단순히 최종 코드만 보는 것이 아니라, 평가 AI가 파일 시스템의 상태와 수정 전후의 구체적인 변경 사항(diffs)을 분석한다. 이렇게 기록된 에이전트의 작업 단계와 자연어로 작성된 요구사항을 대조해, 에이전트의 행동이 정확했는지 혹은 과정 중에 오류를 만들지는 않았는지 검증하는 식이다.

하지만 여기서 가장 중요한 것은 에이전트가 달성해야 할 목표, 즉 목표 함수(target function)를 얼마나 정밀하게 정의하느냐다. 구체적인 요구사항이 이 목표 함수에 명시되지 않으면, 에이전트는 꼭 필요한 기능조차 불필요한 '쓰레기'로 간주해 빠르게 목표를 달성하려고 삭제해 버릴 수 있다. 가령 프롬프트 버전과 추적 기록(traces)을 연결해야 한다는 조건이 없다면, 에이전트가 해당 기능을 통째로 날려버리는 식이다. 이를 해결하기 위해 Langfuse는 평가 과정 전체를 자동화하고 있다. 사용자 취향에 맞춰 자동으로 정렬되는 평가 시스템을 구축하고, 수백 건의 실행 패턴을 분석해 자율형 에이전트의 작업 수행 능력을 정교하게 다듬는 것이 목표다.

12제미나이가 바뀐다 — 질문에 답하던 도구에서 일상을 관리하는 비서로

구글이 제미나이를 단순한 질의응답 도구에서 사용자의 일상을 능동적으로 관리하는 서비스로 진화시킨다. 매번 명령어를 입력하지 않아도 알아서 일정을 정리하고 모니터링하는 자율형 에이전트(proactive agents)를 도입하는 것이다. 대표적인 기능이 '일일 브리핑'이다. 제미나이가 캘린더, 메일함, 할 일 목록의 데이터를 종합해 주제별 요약본을 만들어준다. 사용자가 여러 앱을 오가며 하루 계획을 짤 필요가 없다. 아침 업무 흐름(workflow)을 효율화하는 최적의 동선을 AI가 먼저 제시한다.

일정 관리를 넘어, Pro와 Ultra 등급 사용자에게는 '상시 모니터링 검색 에이전트(persistent search agents)' 기능이 제공된다. 특정 질문에 한 번 답하고 끝나는 기존 AI 검색과 완전히 다르다. 이 에이전트는 웹상에서 사용자가 설정한 특정 조건이 충족될 때까지 백그라운드에서 계속 작동한다. 예를 들어 특정 제품의 가격이 떨어지거나 업계 벤치마크 수치가 업데이트되는 순간을 포착한다. 반복적인 수동 검색의 시대가 끝났다. AI가 감시하고, 조건이 맞을 때만 사용자에게 알림을 보낸다.

이번 업데이트는 AI와 인간이 상호작용하는 방식의 근본적인 변화를 의미한다. 채팅창에 의존하던 인터페이스에서 벗어나, 보이지 않는 곳에서 알아서 돌아가는 '백그라운드 자동화' 시스템으로 넘어가는 것이다. 개인 일정의 종합과 외부 데이터 추적을 AI에게 맡기면, 사용자는 단순 행정 업무에 드는 정신적 피로(cognitive load)를 획기적으로 줄일 수 있다. 요약된 브리핑으로 하루를 시작하고 상시 모니터링으로 시장 변화를 읽는 삶. 이제 AI는 단순한 지식 저장소가 아니라, 사용자를 대신해 과업을 수행하는 실질적인 대리인(functional surrogate)이 된다.

13이제 AI가 서버를 안 거친다 — 내 폰에서 바로 작동하는 Gemma 4

모바일 앱 개발자가 AI 기능을 구현하는 방식이 완전히 바뀐다. 이제 개발자는 효율적인 시스템 도구를 쓸지, 아니면 정교하게 설계한 맞춤형 모델을 넣을지 직접 선택할 수 있다. Gemma 4가 'AI Core'라는 시스템 서비스를 통해 안드로이드와 iOS 앱에 통합되면서, 기기 자체에서 작동하는 지능형 기능(on-device intelligence) 구현이 가능해졌기 때문이다. 서버를 거치지 않고 기기 내부에서 데이터를 처리하므로 속도는 빨라지고 보안성은 높아진다. 서버 의존 시대가 저문다.

여기서 개발자는 '시스템 수준'과 '앱 전용' 생성형 AI 중 하나를 선택해야 한다. 제미나이 Nano처럼 AI Core를 통해 제공되는 시스템 수준 AI는 기기에 이미 설치되어 있다. 최적화가 끝난 상태라 요약 기능(summarization API) 같은 필수 기능을 제공하면서도 앱 설치 용량을 늘리지 않는다. 가볍고 안정적인 성능을 원하는 개발자에게 최적의 경로다. 반면, 독보적인 전문 기능을 구현하고 싶다면 앱 전용 AI를 선택해야 한다. 가벼운 거대언어모델(LLM) 실행 환경(runtime)을 앱이나 웹페이지에 직접 심는 방식이다. 개발 리소스는 더 많이 들지만, AI의 동작을 세밀하게 제어하고 맞춤 설정할 수 있다는 강력한 장점이 있다.

이런 정교한 맞춤 설정을 가능하게 하는 것이 바로 '초소형 거대언어모델(tiny LLM)'이다. 매개변수(parameter)가 10억 개 미만인 이 모델들은 크기가 매우 작아 앱 내부에 직접 탑재할 수 있다. 이를 활용하면 AI Core 같은 표준 서비스로는 구현할 수 없는 독창적인 기능이나 특화된 동작을 만들어낼 수 있다. 가벼운 시스템 도구부터 고도로 설계된 자율형 AI 에이전트(AI agent)까지, 이제 어떤 형태의 기기 내 지능을 구현하든 모바일 플랫폼의 인프라는 준비를 마쳤다.