메모리 노이즈와 망각 문제를 해결하는 오픈소스 아키텍처
LLM 에이전트를 운용하다 보면 이전 대화의 맥락을 놓치거나 서로 충돌하는 기억을 섞어 엉뚱한 답변을 내놓는 상황을 마주한다. 이러한 메모리 노이즈와 세션 단절 시 발생하는 망각 문제를 해결하기 위해 Apache-2.0 라이선스의 오픈소스 에이전트 아키텍처 플러그인이 공개되었다. 이 설계는 특정 도구에 종속되지 않으며 Claude Code, Codex, Gemini CLI(구글의 명령줄 인터페이스)에서 동일하게 작동해 장기 메모리의 모순을 제거한다.
정교한 메모리 제어 없는 즉각적인 반응이 초래하는 위험은 이미 시장에서 증명되었다. Broadcom(브로드컴) CEO가 2026년 2분기 실적 발표 중 실수로 2025년 2분기 매출 150억 달러를 읽자, 이를 실시간 분석하던 봇들이 즉각 반응하며 주가가 15% 급락했다. 약 1,500억 달러의 시가총액이 증발한 뒤에야 2026년 2분기 매출이 260억 달러임이 정정되었으나, 데이터의 노이즈를 걸러내지 못한 자동화 시스템의 한계를 드러냈다.
이번 아키텍처는 고도의 사고 능력이 요구되는 개발 환경에 적용한다. 비기술자도 평범한 영어로 애플리케이션을 구축하는 Claude Code 환경이나, 최고 수준의 사고 노력을 투입하는 Claude Opus 4.8의 ultra code 모드와 결합해 복잡한 벤치마크 작업을 수행한다. 사용자가 로컬 컴퓨터에 전용 폴더를 생성해 파일을 관리하는 구조 내에서 메모리 오염 없이 확장 가능한 에이전트 팀을 구축하는 설계 기준을 제공한다.
Anthropic의 IPO 추진과 AI 인프라의 효율성 경쟁
Anthropic이 미국 증시 상장(IPO)을 위해 비밀리에 신청서를 제출했다. 최근 기업 가치는 9,650억 달러로 평가받으며 1조 달러 규모에 육박한다. 이번 상장은 AI 산업의 거품 논란 속에서 실제 재무 상태를 증명하는 계기가 된다.
업무의 중심이 직접 수행에서 감독으로 옮겨가면 인프라의 효율성이 최우선 과제가 된다. Nvidia는 최신 칩의 칩당 메모리 사용량을 10~20% 감축했다고 Computex에서 발표했다. Jensen Huang은 칩 설계 단계부터 메모리 사용량을 낮추는 방식을 적용해 AI가 수행하는 작업을 감독하는 미래 업무 환경을 뒷받침한다.
에이전트 도구를 선택하는 기준은 응답의 화려함보다 토큰 효율성과 루프의 안정성이다. Pietro Schirano는 Cloud Code보다 Codex를 선호하며, 그 이유로 더 나은 에이전틱 루프(에이전트가 스스로 작업을 반복 수행하는 구조)와 낮은 토큰 소비량을 꼽았다. Codex Sites는 `@sites` 명령어를 통해 플러그인 형태로 호출하며, 곧 'plus plus' 사용자까지 확대한다. 이러한 인프라 효율성은 실제 서비스 구축 단계에서 자율적인 업데이트 기능으로 이어진다.
레포지토리 기반의 자율 업데이트 시스템 Codex Sites
Codex Sites(코덱스 사이트)는 사용자가 저장한 컨텍스트를 기반으로 앱을 빌드하고 자율적으로 업데이트하는 기능을 제공한다. 에이전트 설정을 프롬프트가 아닌 레포지토리 형태로 관리하는 구조를 채택했다. AGENTS.md, agents/, skills/, .agentlas/와 같은 실제 파일로 결과물을 생성해 여러 런타임이 이를 읽게 하며, 사용자는 기존에 쓰던 모델을 그대로 사용한다.
단순한 홈페이지를 넘어 실제 제품 서비스를 구축하려면 프롬프트에 save for review, do not deploy라고 명시하고 현실적인 샘플 데이터를 요청해야 한다. 이는 에디터와 데이터베이스, 호스팅을 한 번에 제공하는 Replit(레플릿)이나 Lovable(러버블)과는 달리, 뉴스레터 구독자 수 변경이나 콘텐츠 기반 가이드 생성처럼 제품이 스스로를 업데이트하는 자율적 제품 구축에 집중한다. 다만 현재 인증(Auth), 데이터베이스, 결제, 이메일 전송, 분석 도구, 비밀 저장소(vault for secret) 기능은 누락된 상태다.
AI 에이전트의 확산으로 디자이너가 코드를 짜고 엔지니어가 제품 기획을 주도하는 직무 교차 현상이 나타나고 있다. 개발자들은 Cursor(커서)나 Cloud Code 등 개인 선호에 맞는 툴링을 선택해 사용한다. 이런 환경에서는 특정 플랫폼을 통해 에이전트와 상호작용하게 만드는 브랜드와 커뮤니티의 영향력이 사용자를 묶어두는 락인(Lock-in) 효과를 결정한다. SpaceX, Anthropic, OpenAI 같은 기업들이 같은 해에 상장하며 3조 달러 규모의 IPO가 발생할 가능성이 큰 시장 상황은 이러한 선점 효과를 더욱 가속한다.
Opus 4.8의 다이내믹 워크플로우와 메모리 보호 체계
신규 모델 Opus 4.8은 다이내믹 워크플로우(dynamic workflows) 기능을 통해 AI가 뱉은 엉뚱한 답을 사람이 일일이 수정하는 과정을 자동화한다. 여러 에이전트 팀을 동시에 운영하며 스스로 실수를 포착하고 수정해 개발자가 개입하기 전 모델이 자체적으로 정답을 찾아가는 구조다.
프로젝트가 길어지면 AI가 이전 결정을 잊고 엉뚱한 방향으로 코드를 짜는 문제를 막기 위해 PM Soul(프로젝트 관리 모듈)이 의도와 결정 이유, 미해결 과제를 기록해 연속성을 유지한다. 동시에 Policy Gate(정책 게이트)가 팀 공유 메모리의 승인 단계를 관리해 특정 에이전트가 잘못된 정보를 입력해 전체 컨텍스트를 오염시키는 현상을 차단한다.
이제 특정 웹사이트에 접속해 작업을 수행하는 방식 대신 Cursor, Codex, Cloud Code 같은 AI 에이전트 도구와 제품이 직접 통합되는 설계가 필수적이다. Claude Code는 Mac OS에서 가장 쾌적하며 Windows, Android, iOS, 크롬 확장 프로그램으로 설치한다. 다만 실질적인 앱 구축을 위해서는 사용량 제한이 적은 월 100달러의 Max 플랜(Max plan)이 필요하며, Codex Sites는 현재 팀 내부 앱으로만 사용한다.
티켓 시스템 기반의 메모리 관리와 비즈니스 벤치마크
메모리 노이즈를 해결하기 위해 정보를 장기 저장소에 즉시 기록하지 않고 `memory-tickets.jsonl` 파일에 티켓 형태로 먼저 적재한다. 티켓에는 ID, 범위(scope), 신뢰 라벨(trust label), 근거(evidence), 상태(status)를 명시한다. 이후 Memory Curator(메모리 관리자)가 해당 티켓을 검토하고 `curator-decisions` 원장에 최종 결정 사항을 남김으로써 메모리 내의 모순을 원천적으로 차단한다.
에이전트 생성 모드는 세 가지 경로를 제공한다. 싱글 에이전트는 self-evolution(자기 진화)과 research-refresh(연구 갱신) 루프를 통해 성능을 높인다. 멀티 에이전트 팀은 오케스트레이터, PM Soul, Memory Curator, Policy Gate, eval judge, QA/근거 게이트 등 전문 역할 간의 핸드오프를 통해 복잡한 워크플로우를 처리한다. 리패키징 모드는 기존의 워크스페이스를 portable package(이식 가능 패키지)로 정리하여 외부로 안전하게 공개한다.
에이전트의 비즈니스 운영 능력을 측정하는 벤치마크 설계도 실무적으로 진화하고 있다. Andon Labs(앤돈 랩스)는 장기 실행 에이전트가 자판기 운영이라는 단순 비즈니스를 수행하는 능력을 평가하는 Vending Bench(벤딩 벤치)를 출시했으며, Anthropic의 공간을 제공받아 실생활 구현 버전인 'Project Van'을 운영했다. 또한 Claude Opus 4.8은 세금, 복지, 고용 시스템은 물론 사업체 간 물류 이동과 재무제표까지 포함된 자율 지속 가능 경제 시뮬레이션 벤치마크를 구축해 LLM이 가상 환경에서 직접 상품 매매와 임금 설정, 고용 및 해고를 수행하며 운영 성능을 증명한다.
특정 LLM 툴에 종속되지 않고 메모리 오염 없이 확장 가능한 에이전트 팀을 구축하는 설계 기준이 확보되었다. 이제 에이전트의 성능은 모델의 파라미터가 아니라 메모리를 관리하는 아키텍처의 정교함에서 결정된다.
1인 유니콘 기업이나 자율 운영 기업의 가능성은 벤치마크 설계로 구체화된다. Andon Labs는 2025년 초 AI 에이전트가 비즈니스를 자율적으로 운영하는 능력을 측정하는 기준을 개발했다. 이러한 기술적 진보는 Anthropic의 상장 과정에서 매출 성장과 추론 비용, 기업 고객 유지율 등 세부 지표를 통해 실제 수익 구조가 드러나며 AI 인프라 투자 붐의 정당성이 판가름 날 것이다.




