Hermes 에이전트 스킬 자동화 구현 및 M-DASH의 프런티어 모델 성능 역전

인공지능의 지형이 정적인 채팅 인터페이스를 넘어, 스스로 성능을 개선하는 자율형 시스템 통합 에이전트로 빠르게 이동하고 있다. 대표적인 사례가 Hermes Agent다. 이 모델은 스스로 필요한 스킬을 자동 생성함으로써, 사람이 일일이 개입해야 했던 프롬프트 엔지니어링과 하드코딩된 지침의 의존도를 획기적으로 낮췄다. 이와 동시에 등장한 M-DASH는 성능 평가의 기준이 '시스템 중심'으로 옮겨가고 있음을 시사한다. 특정 아키텍처 최적화를 거친 특화 모델이 특정 도메인에서 범용 프런티어 모델의 성능을 앞지르기 시작한 것이다. **이제는 채팅이 아니라 실행의 시대다.**

에이전트의 자율성뿐 아니라 멀티모달 AI의 기술적 한계도 확장되고 있다. 특히 '동시 도구 호출(simultaneous tool calls)' 기능은 모델이 여러 소프트웨어 환경과 순차적이 아닌 단일 단계로 상호작용하게 만든다. 이는 기존의 비효율적인 '채팅 후 복사-붙여넣기' 식의 워크플로우를 완전히 대체하는 직접적인 시스템 상호작용으로의 전환을 가속화한다. 제품 단에서의 확장세도 매섭다. 구글은 다가오는 Google IO에서 제미나이 Spark를 공개할 예정이며, ChatGPT Pro는 Plaid를 통합해 사용자의 금융 데이터에 직접적이고 안전하게 접근하는 기능을 구현하고 있다. **AI는 더 이상 외부의 조언자가 아니다.** 이제 AI는 시스템 내부에 깊숙이 박힌 '임베디드 운영 레이어'로 진화하고 있다.

헤르메스 에이전트, '스킬 자동 생성'으로 생산성 정의를 바꾸다

헤르메스 에이전트는 AI 성능의 핵심을 단순한 모델 가중치가 아닌, 행동을 제어하고 고품질 답변을 보장하는 주변 시스템인 '하네스(harness)'로 옮겼다. 특히 /goal 기능은 신뢰성의 핵심이다. 이는 측정 가능한 최종 상태에 도달할 때까지 6시간에서 24시간 이상 자율적으로 작동하게 한다. 기존의 단계별 프롬프팅과 달리 사용자는 최종 결과값만 정의하면 되며, 헤르메스는 목표 달성 시까지 리서치와 빌드를 반복 수행한다. 이 과정은 판별 모델(judge model)이 매 턴마다 완료 여부를 검증하며, 목표 달성이나 사용자 개입, 혹은 할당된 예산이 소진될 때까지 멈추지 않는다. 모델의 체급보다 시스템의 설계가 더 중요해진 시점이다.

헤르메스의 진정한 강점은 실패를 통해 스스로 스킬을 생성하는 자가 학습 능력에 있다. 예를 들어 Cloudflare 보호 체계로 인해 Midjourney에서 이미지를 가져오지 못하는 장애를 만나면, 에이전트는 이 오류에서 얻은 교훈을 영구적인 스킬로 변환해 저장한다. 학습 과정을 자동화함으로써 동일한 실수를 반복하지 않고, 불필요한 토큰 낭비를 막아 효율성을 극대화한다. 개발자의 수동 개입 없이도 에이전트의 역량이 동적으로 진화하는 구조다. 실패가 곧 자산이 되는 셈이다.

이러한 자율성은 환경 설정과 도구 통합 영역으로 확장된다. 헤르메스는 Codex CLI 같은 특정 소프트웨어의 필요성을 스스로 판단하고, 사용자의 기존 구독 정보를 활용해 인증 과정을 처리함으로써 수동 로그인을 우회한다. 외부 도구의 심리스한 통합은 곧 전문적인 결과물 생산으로 이어진다. 실제로 내부 계획 수립과 전용 PowerPoint 스킬을 결합해, 수정 가능한 5페이지 분량의 발표 자료를 약 17분 만에 완성했다. 자율적 도구 관리와 목표 지향적 실행의 결합은 에이전트를 단순한 챗봇에서 실질적인 생산성 엔진으로 진화시켰다.

모델의 체급보다 시스템의 설계가 앞선다

마이크로소프트가 공개한 M-DASH(multi-model agentic scanning harness)는 모델의 원시 성능이 AI 성능의 유일한 결정 요인이라는 기존의 믿음을 완전히 깨뜨렸다. Cyber Gym 벤치마크에서 M-DASH는 88.45%를 기록하며 앤스로픽의 Mythos preview(83.1%)와 오픈AI의 GPT-5.5(81.8%)를 압도했다. 특히 주목할 점은 앤스로픽과 오픈AI가 자사의 최상위 플래그십 모델을 투입한 반면, 마이크로소프트는 타사에서 제공하는 범용 모델들을 조합해 더 나은 결과를 냈다는 것이다. 결국 더 뛰어난 시스템이 더 뛰어난 모델을 이겼다.

이는 인공 초지능(ASI)으로 향하는 두 가지 서로 다른 경로를 극명하게 보여준다. 오픈AI와 앤스로픽은 방대한 데이터와 컴퓨팅 자원, 정예 연구진을 투입해 단일 모델의 한계를 밀어붙이는 전략을 취한다. 반면 M-DASH는 작업 분해와 멀티 에이전트 오케스트레이션을 통해 기존 역량을 극대화하는 방향을 택했다. 개별 모델의 강함을 추구하는 대신, 모델들이 어떻게 상호작용하고 복잡한 과업을 수행할지를 관리하는 엔지니어링 아키텍처에 집중한 결과다. 모델의 체급보다 운용의 묘가 핵심이다.

전략적 관점에서 AI 애플리케이션의 지속 가능한 경쟁 우위는 모델 자체가 아니라 모델을 둘러싼 엔지니어링 시스템에서 나온다. 진정한 가치는 특화 에이전트, 검증 단계, 도메인 전용 플러그인으로 구성된 파이프라인에 있다. 이러한 시스템 중심 접근법은 하위 모델을 언제든 교체 가능한 부품으로 변모시킨다. 오케스트레이션 레이어를 모델 레이어와 분리함으로써, 개발자는 변동성이 큰 컴퓨팅 자원이나 파라미터 경쟁이 아닌 시스템 설계 역량으로 독보적인 우위를 점할 수 있다. 모델은 이제 교체 가능한 부품일 뿐이다.

멀티모달 AI, '동시 도구 호출'로 실시간 상호작용 구현

현대 멀티모달 AI의 지향점은 '진정한 동시성(concurrency)'의 구현이다. 이제 모델은 사용자 인터랙션을 중단하지 않고도 백그라운드에서 도구 호출을 수행한다. '청취 후 실행'이라는 기존의 순차적 루프에서 벗어나, 웹 검색이나 UI 생성을 처리하는 동시에 사용자와 실시간으로 대화를 주고받는 구조다. 결과적으로 AI는 실시간 데이터를 대화 흐름 속에 매끄럽게 통합한다. 카메라로 사용자의 자세를 실시간 모니터링하며 구부정한 자세를 즉시 교정해주는 기능이 대표적이다. 시각 데이터 처리와 오디오 피드백이 단절 없이 흐르는 연속적 스트림의 형태다. 상호작용의 단절이 사라졌다.

이러한 복잡한 에이전틱(agentic) 워크플로우에서 발생하는 연산 오버헤드와 지연 시간 문제는 Crusoe의 Memory Alloy 같은 특화 인프라를 통해 해결된다. 기존 AI 시스템은 컨텍스트 윈도우가 확장될수록 성능 저하가 불가피했다. 매 요청마다 방대한 프롬프트와 RAG 문서, 에이전트 지침을 처음부터 다시 처리해야 했기 때문이다. Memory Alloy는 여러 요청에 걸쳐 컨텍스트를 유지하고 재사용함으로써 지연 시간을 획기적으로 줄이고 추론 속도를 유지한다. AI가 고도화된 에이전트로 진화하며 여러 백그라운드 도구를 동시에 제어하고 지속적인 상태(persistent state)를 유지해야 하는 상황에서, 이러한 아키텍처의 전환은 필수적이다. 인프라가 지능의 속도를 결정한다.

동시 도구 실행과 최적화된 컨텍스트 관리의 결합은 AI를 수동적인 챗봇에서 능동적인 어시스턴트로 진화시킨다. 데이터 검색과 UI 생성 같은 무거운 작업을 백그라운드로 오프로딩함으로써, 인간 대화 특유의 유연함을 그대로 유지할 수 있다. 사용자가 체감하던 '생각 중' 혹은 '검색 중'이라는 지연 시간의 간극이 사실상 소멸하는 셈이다. 통합 멀티모달 접근법을 통해 입출력 스트림을 동시에 처리하고, 최적화된 메모리 시스템으로 일관된 속도를 확보하는 것은 AI가 디지털과 물리 세계를 인터랙션하는 방식의 근본적인 패러다임 전환이다. 이제 AI는 반응하는 도구가 아니라 함께 움직이는 파트너가 된다.

통합 AI가 바꾸는 워크플로우: '복사-붙여넣기'의 종말

'채팅 후 복사-붙여넣기' 식의 워크플로우가 통합 AI로 대체되며 생산성의 패러다임이 바뀌고 있다. 초기 ChatGPT 모델은 결과물을 외부 문서로 옮겨 일일이 수정하는 번거로운 과정을 거쳐야 했다. 이제는 소프트웨어 내부에서 문장을 즉시 수정하거나 셀을 병합하는 직접 제어 방식이 주류다. Codex 같은 도구가 보여주듯, 사용자가 채팅 지침을 소프트웨어 설정으로 일일이 번역해 적용할 필요 없이 OBS의 페이스캠 오류를 즉각 해결하는 수준에 이르렀다. 단순 보조 도구에서 실행 도구로 진화한 것이다.

통합 경험을 뒷받침하는 하드웨어 효율성 역시 빠르게 진화 중이다. SA-WM 모델은 단일 GPU 구동을 목표로 설계되었으며, 특히 증류(distilled) 버전은 RTX5090 기준으로 60초 분량의 클립을 단 34초 만에 디노이징한다. 하드웨어 최적화와 동시에 프롬프트 엔지니어링은 품질을 높이기 위한 변칙적 경로를 탐색하고 있다. GPT image 2에게 이전 이미지를 재생성하는 것이라 믿게 만드는 일종의 '가스라이팅' 기법이 결과물의 사실감을 비약적으로 높이는 식이다.

AI 에이전트가 실제 서비스 단계로 진입하며, 이제 품질을 결정짓는 핵심은 모델 자체가 아니라 '하네스(harness)', 즉 오케스트레이션 로직과 컨텍스트 전략이다. 파일 편집 방식만 봐도 차이가 극명하다. 오픈AI는 git diff와 유사한 패치 기반 형식을 취하는 반면, 앤스로픽은 문자열 교체 방식에 의존한다. Cursor는 보여주기식 벤치마크를 버리고, 에이전트가 짠 코드가 실제 코드베이스에 얼마나 살아남는지를 측정하는 'keep rate'를 지표로 삼았다. 결국 성능의 격차는 모델이 아닌 스캐폴딩(scaffolding)에서 갈린다. 실제로 OUS 4.5 모델은 Cursor 하네스 사용 시 Sweben Pro 태스크에서 50.2%의 점수를 기록했으나, Clot code 하네스로 교체하자 55.4%로 상승했다.

다만 멀티 에이전트 시스템으로의 전환은 '신뢰성 위기'라는 새로운 과제를 던진다. 플래너, 제너레이터, 에밸루에이터가 결합된 풀 하네스는 단일 에이전트보다 압도적인 성능을 보여준다. 앤스로픽의 분석에 따르면, 단일 에이전트는 9달러의 비용을 소모하고도 겨우 작동하는 수준의 결과물을 내놓는 데 그쳤다. 문제는 복잡성이 증가할수록 실패율이 누적된다는 점이다. 개별 신뢰도가 95%인 에이전트 5개를 체이닝하면 전체 시스템 신뢰도는 77.4%까지 급락한다. 이에 따라 업계의 관심은 하네스를 단순한 보조 도구가 아닌, 디스패칭과 태스크 프레이밍, 결과 스티칭을 정교하게 관리해 시스템 붕괴를 막는 하나의 '소프트웨어 시스템'으로 진화시키는 방향으로 이동하고 있다.

구글 IO의 핵심, '제미나이 Spark'가 가져올 에이전트 시대

구글이 다가오는 구글 IO에서 '제미나이 Spark'를 전면에 내세워 AI 전략의 축을 '자율적 에이전트'로 이동시킨다. 제미나이 Spark는 단순한 프롬프트-응답 구조를 탈피해 사용자 행동을 능동적으로 학습하는 24시간 상주형 비서다. 연결된 앱과 스킬을 유기적으로 통합해 운영 효율을 극대화하는 구조다. 이제 AI는 정보를 주는 도구가 아니라 과업을 직접 처리하는 주체가 된다. 이는 Open Claude Hermes와 같은 에이전트 지향적 모델로의 명확한 전환이다.

에이전트의 두뇌가 될 제미나이 3.2 Flash의 등장도 주목된다. 고수준 추론 능력과 운영 비용 사이의 최적점을 찾는 데 집중한 모델이다. GPT 5.5 대비 코딩 및 추론 성능의 약 92%를 유지하면서도, 운영 비용은 15~20배 낮추고 속도는 비약적으로 끌어올렸다. 지능의 손실을 최소화하며 효율성을 극대화한 결과다. 구글의 목표는 명확하다. 고부하 애플리케이션에서도 고급 추론 기능을 경제적으로 구현하는 것이다.

행동 기반 AI 에이전트와 고효율 모델의 동시 출시는 정교하게 설계된 투트랙 전략이다. 제미나이 Spark가 사용자 맞춤형 자율성을 제공한다면, 제미나이 3.2 Flash는 이를 대규모로 구동할 수 있는 가벼운 인프라를 뒷받침한다. 결국 정교한 AI 도입의 진입장벽인 비용과 마찰을 제거해, 에이전트의 보편화와 경제적 실현 가능성을 동시에 잡겠다는 계산이다. 복잡한 워크플로우를 가장 싸고 빠르게 처리하는 능력이 곧 경쟁력이 되는 '에이전틱 AI' 시대의 주도권을 쥐겠다는 전략적 승부수다.

ChatGPT Pro, Plaid 연동으로 개인 금융 시장 진출

오픈AI가 Plaid와의 연동을 통해 ChatGPT Pro 구독 서비스에 전용 개인 금융 기능을 도입했다. 이는 소비자 금융 섹터로의 직접적인 진출을 의미하며, 유료 사용자는 자신의 금융 인프라를 AI와 안전하게 연결할 수 있게 됐다. Plaid의 광범위한 네트워크를 통해 전통적 은행부터 신용카드사, 투자 계좌에 이르기까지 약 12,000개의 금융 기관을 폭넓게 연결할 수 있다. 이제 챗봇은 단순한 범용 비서를 넘어 실시간 개인 금융 데이터를 다루는 전문 도구로 진화했다.

이 기능의 핵심은 데이터 기반 인사이트를 통해 사용자의 재무 상태를 종합적으로 파악하는 데 있다. 연결이 완료되면 ChatGPT Pro 사용자는 지출 습관을 모니터링하고, 투자 포트폴리오 성과를 추적하며, 정기 구독 서비스를 효율적으로 관리할 수 있다. 특히 능동적인 예산 계획이 가능해져, 연결된 금융 정보를 바탕으로 자금 흐름을 정확히 파악하기 위한 복잡한 질의가 가능하다. 수동 입력이나 파일 업로드에 의존했던 기존 방식과는 차원이 다른 정밀 분석이다.

이번 업데이트는 금융 보고 및 스프레드시트 처리 AI 기술이 성숙해진 시점에 나왔다. 타 기업들이 엑셀 같은 소프트웨어에 AI를 접목하는 우회로를 택할 때, 오픈AI는 데이터 파이프라인을 직접 연결하는 정공법을 선택했다. 민감한 금융 데이터를 AI와 공유하는 것에 대한 보안 우려는 여전하지만, Plaid를 통한 구현은 보안 연결 유지에 최우선 가치를 뒀음을 보여준다. 오픈AI는 ChatGPT Pro를 단순한 텍스트 생성기를 넘어, 실행 가능한 데이터 기반 금융 인텔리전스를 제공하는 개인 자산 관리의 허브로 포지셔닝하고 있다.