샌프란시스코에서 열린 연례 개발자 컨퍼런스 Code with Claude 현장에서는 AI 에이전트가 단순히 명령을 수행하는 단계를 넘어, 스스로 과거의 실수를 복기하고 작업 방식을 개선하는 장면이 시연되었다. 그동안 개발자들은 에이전트가 복잡한 업무를 수행할 때 발생하는 병목 현상과 일관성 부족을 가장 큰 고민으로 꼽아왔는데, 이번 발표는 그 해결책으로 에이전트의 자기 개선 능력을 제시했다.

Dreaming 기능과 에이전트 플랫폼 업데이트

Anthropic은 이번 행사에서 AI 에이전트가 과거 세션에서 학습하고 시간이 지남에 따라 성능을 높이는 Dreaming(에이전트가 과거 데이터를 분석해 스스로 학습하는 기능)을 포함한 플랫폼 업데이트를 발표했다. 이와 함께 기존 연구 단계였던 Outcomes(에이전트의 작업 결과를 특정 기준에 따라 평가하는 기능)와 Multi-agent orchestration(여러 에이전트가 협업하도록 조정하는 기능)을 퍼블릭 베타로 전환했다. 실제 도입 사례도 구체적이다. 법률 AI 기업 Harvey는 Dreaming 도입 후 작업 완료율이 약 6배 증가했으며, 의료 문서 검토 기업 Wisedocs는 문서 검토 시간을 50% 단축했다. 또한 Netflix는 수백 개의 빌드 로그를 Multi-agent orchestration을 통해 동시에 처리하고 있다.

기존 메모리 시스템과의 차이점

예전에는 에이전트가 단순히 개별 세션 내의 문맥이나 사용자 선호도를 기억하는 수준의 메모리 기능에 머물러 있었다. 이제는 Dreaming을 통해 에이전트가 더 높은 추상화 단계에서 과거 세션 전체를 검토하고 패턴을 추출한다. 이 과정에서 에이전트는 반복되는 실수나 여러 에이전트가 공통으로 사용하는 작업 흐름을 찾아내어 이를 구조화된 플레이북(에이전트가 참조할 수 있는 작업 지침서) 형태로 기록한다. 중요한 점은 이 과정에서 모델의 가중치(모델의 지능을 결정하는 내부 파라미터)를 직접 수정하지 않는다는 것이다. 대신 에이전트는 학습 내용을 일반 텍스트나 구조화된 메모로 저장하며, 이는 사람이 직접 확인하고 감사할 수 있는 투명성을 제공한다.

실제 업무 환경에서의 영향

개발자가 바로 체감하는 변화는 복잡한 다단계 작업을 수행할 때 에이전트가 스스로 최적의 경로를 찾아가는 과정이다. 컨퍼런스 현장에서 진행된 달 착륙 드론 시뮬레이션 데모에서는 사령관, 탐지기, 항법사 역할을 맡은 세 명의 에이전트가 협업했다. 초기 시뮬레이션 결과가 완벽하지 않자, 개발자가 Claude Developer Console(Claude 플랫폼 개발을 위한 관리 도구)에서 버튼을 눌러 Dreaming 세션을 실행했다. 하룻밤 사이 에이전트는 과거 시뮬레이션 데이터를 분석해 하강 플레이북을 작성했고, 다음 날 실행된 시뮬레이션에서는 이전보다 훨씬 정교한 착륙 결과를 보여주었다. 이는 에이전트가 스스로 더 나은 노트를 작성하는 법을 배우며, 기업이 요구하는 생산 환경에서의 신뢰성을 확보해 나가는 과정임을 시사한다.

AI 에이전트의 진화는 이제 인간의 개입 없이 스스로 작업의 질을 높이는 자가 개선의 영역으로 진입했다.