애플이 WWDC에서 새로운 Siri를 다시 선보일 예정이다
단순한 웹 검색 결과를 나열하던 과거의 음성 비서와 달리, 이번에는 사용자의 의도를 실질적으로 수행하는 지능형 에이전트로의 진화가 예고되었다. 애플은 월요일에 열리는 WWDC(세계 개발자 컨퍼런스)를 통해 새로운 Siri를 소개한다. 운영체제 레벨에서 AI 기능을 재구현해 그간의 답답한 사용자 경험을 해소하려는 전략이다.
기술적 완성도를 높이기 위한 업계의 움직임도 분주하다. OpenAI는 모델에 대한 독립적 검토를 공개적으로 요청했으며, 여러 AI 랩 관계자들은 재귀적 자기 개선 기술의 발전 속도에 맞춰 조율된 감속이 필요하다는 점에 합의했다. 이는 성능 향상만큼이나 안전한 제어권 확보가 필수적임을 보여준다.
콘텐츠 보호 측면에서는 데이터의 가치에 따라 차별화된 접근이 이루어지고 있다. 전자책보다 제작 노력이 많이 투입되는 비디오 코스 등 고가치 콘텐츠에는 DRM(디지털 저작권 관리, 리소스 암호화와 라이선스 키 전달을 통해 콘텐츠를 보호하는 기술)이 주로 사용된다. 서버에 암호화된 복사본을 저장하고 클라이언트가 보안 방식으로 키를 전달받아 복호화하는 방식이 정보 자산 유출을 막는 표준 구조로 자리 잡았다.
Hermes 에이전트가 전용 데스크톱 앱으로 공식 출시되었다
텔레그램(Telegram)이나 시그널(Signal), 아이메시지(iMessage)를 통해 접속하던 Hermes 에이전트가 전용 데스크톱 환경인 Hermes Agent Desktop(AI 에이전트 도구)으로 공식 출시됐다. 기존 OpenClaw(AI 에이전트 도구) 사용자였던 알렉스 핀(Alex Finn)은 이번 출시로 Hermes가 OpenClaw를 추월했으며, 최적의 AI 에이전트 경험을 제공한다고 평가했다.
모델의 성능을 높이기 위해 비용을 과감하게 투입하는 사례도 늘고 있다. 앤스로픽(Anthropic)은 정교한 코드 생성과 3D 공간 이해 능력을 갖춘 Oceanis(Mythos의 성숙 버전) 모델 출시를 준비 중이다. 1백만 토큰 출력당 80~100달러라는 높은 비용이 예상되지만 그만큼 수준 높은 결과물을 제공한다. OpenAI는 에이전트 성격의 Codex(코딩 보조 도구) 앱을 업그레이드하고 해당 기능을 향후 ChatGPT 내부로 통합할 계획이다.
특화 기능을 가진 오픈 소스 모델의 출시 속도도 빠르다. 8B 규모의 텍스트-음성 변환 모델 Miso One voice와 4K 리얼리즘 중심의 Reeve 2.0, 구글(Google)의 MIDI 생성기 Bernini가 공개됐다. 한편 CLAI에서 시작해 월 12억 건의 에이전트 실행을 기록한 AI 클라우드 랭베이스(LangBase)는 모든 기능을 수행하는 유일한 에이전트를 코딩 에이전트로 정의하며 커맨드코드(CommandCode)로 피벗했다.
이런 기술 경쟁 속에서 콘텐츠 보호는 수익 창출(Monetization)의 문제로 이어진다. 제작에 투입된 시간과 비용에 대한 보상을 받기 위해 보호 조치가 필수적이며, 적절한 장치가 없다면 콘텐츠가 무단 배포되거나 저가에 판매될 위험이 크기 때문이다.
구글 딥마인드와 주요 AI 랩이 '재귀적 자기 개선' 체계를 추진한다
Anthropic, OpenAI, Google DeepMind는 AI 모델이 스스로를 개선하는 체계를 구축해 연구 속도를 가속화하는 재귀적 자기 개선(recursive self-improvement)을 명시적 계획으로 추진하고 있다. 연구자가 수개월간 수행하던 성능 향상 작업을 AI 모델이 스스로 루프를 돌며 수행하는 구조다.
실행 효율을 높여 비용을 줄이는 기술적 장치들도 구체화되고 있다. Hermes Desktop(데스크톱 AI 인터페이스)은 대화 시 자동으로 새로운 세션을 생성하고 이를 폴더로 관리한다. 하나의 큰 스레드에 모든 대화를 기록해 메시지 전송 시마다 방대한 이전 컨텍스트가 함께 전송되어 비용이 급증하는 문제를 세션 분리로 해결했다.
로컬 환경의 확장과 정밀한 제어권 확보도 동시에 진행 중이다. Google이 출시한 Gemma 42B는 로컬 실행 도구인 LM Studio(로컬 LLM 구동기)를 통해 구동 가능하며, 해당 도구는 최근 모바일 앱을 출시했다. ChatGPT는 설정의 개인화(Personalization) 메뉴에서 사용자가 저장된 메모리를 직접 수정하거나 삭제해 잘못된 정보가 이후 채팅을 오염시키는 것을 막는 기능을 제공한다.
애플은 그간 AI 분야의 후발 주자로 머물렀으나, 기존의 불편한 경험을 해결하는 방식으로 시장에 재진입하는 전략을 취하고 있다.
OpenAI가 2028년까지 인간 수준의 AI R&D 연구자 모델 구현을 목표로 한다
OpenAI는 2026년 말까지 ML(머신러닝) 연구 인턴, 2028년 초까지 인간 수준의 AI R&D 연구자 모델 구현을 목표로 잡았다. 인간 연구자와 대등한 성능을 칩 위에 구현해 연구 역량을 컴퓨팅 자원 규모에 따라 확장하려는 전략이다. 성공한다면 수백만 명 수준의 인간 연구자 등가물을 투입해 24시간 내내 연구 속도를 높일 수 있다.
개별 에이전트의 정체성을 정의하는 방식도 구체화된다. Hermes(헤르메스, 독립형 AI 에이전트)는 성격을 정의하는 `soul.md` 파일과 고유 기술, 메모리를 가진 프로필 시스템을 지원한다. CommandCode(커맨드코드, AI 코딩 도구)는 메타-뉴로-심볼릭 모델인 Taste One을 통해 사용자의 코딩 패턴을 Taste 파일이나 Skill 파일로 저장한다. 이는 LLM(대규모 언어 모델)이나 RAG(검색 증강 생성)가 찾지 못하는 개인의 전문적 의견을 라이브러리로 구축하는 방식이다.
실행 도구와 기억 방식은 더 실무적으로 변한다. 9B 오픈 웨이트 모델인 idoggram 4는 현재까지 공개된 오픈 소스 이미지 생성기 중 가장 뛰어난 성능을 낸다. 핀테크 기업 Mercury(머큐리)는 AI 에이전트가 직접 결제하도록 지출 한도 설정이 가능한 가상 카드와 API 키, MCP(모델 컨텍스트 프로토콜), CLI(명령줄 인터페이스) 도구를 제공한다. ChatGPT의 메모리 업데이트는 주기적으로 과거 채팅을 분석해 정보를 추출하는 드림(dreaming) 방식을 채택했다. 이는 Open Claw나 Hermes 같은 독립형 에이전트에서 쓰이던 방식으로, Claude(클로드)가 웹 애플리케이션에 먼저 도입한 시스템이다.
ChatGPT가 메모리 시스템 업그레이드로 사용자 맞춤형 컨텍스트를 강화한다
분석 결과 Claude는 포괄성과 구체성 면에서 우세하며, ChatGPT는 개인적인 삶에 대한 커버리지가 더 높게 측정되었다. OpenAI는 사용자의 이름이나 직업 등 채팅 중 언급된 정보를 자동으로 추출해 메모리라는 저장소에 보관하는 시스템을 도입했다. 저장된 정보가 새로운 채팅의 컨텍스트로 활용되어 사용자가 매번 자신을 다시 설명할 필요가 없게 만든다.
오픈 모델의 도구 호출 과정에서는 DeepSeek V4 Pro와 Opus를 비교 분석하던 중 툴 혼동(tool confusion) 현상이 발견되었다. 이를 해결하기 위해 툴 호출 오류를 확정적으로 수정하는 방법이 개발되어 CommandCode(코딩 하네스)에 적용되었고, 다른 코딩 하네스에서도 구현할 수 있도록 공개되었다. 모델이 도구를 정확히 호출하는 결정론적 제어 능력이 오픈 모델의 성능을 가르는 기준이 됐다.
실무 적용 단계에서는 모델이 스스로 스캐폴딩(scaffolding, 모델의 동작을 제어하는 외부 구조)을 수정하는 반복 루프가 활용된다. 세무 법인 사례처럼 얇은 스캐폴딩을 먼저 세운 뒤 오류를 포착하면 모델이 직접 수정하게 하여 성능을 빠르게 끌어올린다. 엔지니어가 일일이 개입하는 대신 모델의 자가 수정 루프를 통해 최적화 속도를 높이는 방식이다.
콘텐츠 보호는 단순한 블로그 링크 요청이나 Shutterstock(셔터스톡)의 워터마크, 뉴스 사이트의 페이월(Paywall, 유료 결제 벽) 수준에서 제한적인 효과를 낸다. 반면 DRM(Digital Rights Management, 디지털 권리 관리) 구현은 방어자가 인코딩 및 전달 방식을 변경해도 공격자가 이를 다시 파악해 뚫어내는 과정이 반복되는 기술적 대립 양상을 띤다.
시리를 호출해도 단순한 웹 검색 결과만 내놓던 답답한 경험은 이번 WWDC 월요일 발표를 기점으로 전환점을 맞는다. 애플은 개발자 컨퍼런스를 통해 OS 레벨에서 AI 기능을 재구현한 새로운 시리를 다시 소개한다.
핵심은 시리가 단순한 명령 수행기에서 벗어나 실질적인 지능형 에이전트로 진화했는지 여부다. 단순한 인터페이스의 변화가 아니라, 사용자 의도를 완결 짓는 실행력이 이번 진화의 실체를 증명한다.




