구조화된 출력 모드보다 평가 세트(Evaluation
모델 업데이트 후 멀쩡하던 시스템이 갑자기 멈춘다면 개발자는 어디서 원인을 찾아야 할까. Claude Sonnet 4.5는 응답 방식의 변화로 시스템 가정을 위반했다. 모델이 더 도움이 되는 응답을 제공하려는 특성 때문에 확인 질문을 던지거나 description 필드에 요청 본문을 포함했다. 프롬프트에 다른 필드의 직렬화된 표현을 포함해서는 안 된다는 명시적 제약이 없었던 것이 원인이다.
구조화된 출력 모드나 Tool-use API(외부 도구 호출 인터페이스)는 구문(Syntax)만 제어한다. 확인 질문 금지와 같은 의미적(Semantics) 제약은 해결하지 못한다. 따라서 프롬프트가 아니라 입력과 속성, 점수 함수로 구성된 평가 세트(Evaluation Suite)를 시스템의 공식 명세로 취급하는 규율이 필요하다.
2026년 5월 기준 Anthropic 코드베이스에 병합된 코드의 80% 이상을 Claude가 작성했다. 2025년 2월 Claude Code(AI 기반 코딩 도구) 리서치 프리뷰 출시 전에는 한 자릿수 초반에 불과했다. 이제 모델은 전체 파일 작성과 복잡한 디버깅 등 인간의 며칠 분량 작업을 처리한다. 엔지니어의 역할은 코드 작성자에서 팩토리 매니저(Factory Manager)로 변하며 취향(Taste)이 개발의 핵심 병목이 됐다.
모델 버전을 Claude 4.0으로 롤백하는 과정에서 통합 기능 재검증 부담이 발생했다. 4.0과 4.5 사이에 추가된 API 기능들이 4.5 기준으로만 검증되었기 때문이다. AI 에이전트를 통한 초고속 개발 속도는 향후 소프트웨어 개발의 표준이 될 전망이다. 기존 PR(Pull Request) 리뷰 방식으로는 이 속도를 감당할 수 없어 OpenAI는 모델에 대한 독립적 검토를 요청하고 프런티어 랩들은 조율된 감속(coordinated slowdown)의 필요성을 논의하고 있다.
AI가 '재귀적 자기 개선(recursive
AI가 스스로 다음 세대 AI를 설계하고 개선하는 세상에서 인간 개발자의 역할은 무엇으로 남을까. Anthropic은 AI가 '재귀적 자기 개선(recursive self-improvement)'의 초기 단계에 진입했다고 경고했다. AI 시스템이 직접 다음 세대 시스템을 설계, 구축, 테스트하고 개선하는 구조다. 완전히 도달한 상태는 아니지만 정부와 기업의 준비 속도보다 빠르게 이동하고 있다. 이는 인간이 AI에 대한 통제력을 상실할 수 있다는 심각한 정렬(alignment) 문제로 이어진다.
실제 개발 현장의 생산성 수치는 이미 급증했다. Anthropic 엔지니어들의 일일 코드 병합량은 2024년 대비 8배 늘었다. Claude가 코딩 대부분을 수행하고 엔지니어는 방향 설정과 리뷰만 담당한다. 일부 직원은 최근 5개월 동안 직접 코드를 작성하지 않았다. OpenClaw(자율 에이전트)는 본업이 따로 있는 10~15명의 핵심 유지관리자만으로 하루 최대 800건의 커밋을 기록했다.
에이전트의 진화 방향은 LLM 단독 사용에서 독립 에이전트, 멀티 AI 에이전트를 거쳐 딥 에이전트(Deep Agents, 심화된 형태의 에이전트)로 이동 중이다. Hermes Agent(삶의 자동화 도구)는 LLM을 두뇌로 쓰고 주변에서 컨텍스트와 브라우저, 코드 실행 도구를 관리한다. 단일 워크플로우 자동화에 적합한 OpenClaw나 Claude Code, n8n(워크플로우 자동화 도구)과 달리 지속적인 대화를 통해 복합적인 삶의 자동화를 수행한다. 특히 OpenClaw에는 없는 자기 학습 루프를 갖췄다. 핀테크 기업 Mercury는 AI 에이전트가 안전하게 결제하도록 API 키, MCP, CLI 도구 및 가상 카드 기능을 제공한다. 사용자는 가상 카드의 지출 한도를 설정하거나 구매 카테고리를 제한해 에이전트에게 부여할 수 있다.
Anthropic, Google DeepMind 등 프런티어
연구자가 밤을 새워 모델을 튜닝하는 시대는 끝난다. OpenAI와 Anthropic, Google DeepMind는 AI가 스스로를 개선하는 '재귀적 자기 개선(Recursive Self-Improvement)'을 명시적 계획으로 추진한다. AI가 모델을 직접 구축하고 훈련하는 '폐쇄 루프(closed loop)' 단계에 진입하면 인간의 개입은 사라진다. 이때부터는 투입 가능한 컴퓨팅 자원의 양과 병렬화 수준이 유일한 병목이 된다. 미래의 Claude는 스스로를 지속적으로 개선하는 구조를 갖게 된다.
2025년에서 2026년 사이에는 인간이 코드를 직접 쓰지 않는 '코딩 에이전트' 시대가 온다. 사용자가 챗봇에게 명령하면 챗봇이 에이전트에게 위임하고, 에이전트가 작성한 코드로 Claude를 구축하는 방식이다. 반면 명시적 계획 수립 능력이 없는 '얕은 에이전트(Shallow Agent)'는 복잡한 쿼리를 하위 작업으로 분해하지 못한다. 컨텍스트 유지 능력도 제한적이라 고도의 분석 작업에 부적합하다. LLM을 위키피디아 같은 외부 도구와 연결하는 ReAct 에이전트(ReAct agent)가 현재의 대표적인 대안이다.
자연어로 제어 가능한 Hermes Agent(에이전트 프레임워크)는 사용량이 늘수록 성능이 올라가는 '자기 학습 루프(self-learning loop)'를 제공한다. OpenAI, MiniMax, Anthropic 등 모든 LLM과 호환되며 코딩 없이 구두 명령으로 제어할 수 있다. 이러한 자율성은 개발 속도의 가속으로 이어진다. Anthropic은 모든 주요 연구소가 동시에 개발을 멈춘다는 검증 가능한 조건이 충족될 때만 개발 중단에 참여하겠다고 밝혔다. 단일 기업의 일방적 중단은 선두 주자만 바꿀 뿐 해결책이 되지 않는다. 여러 국가의 연구소가 비밀리에 개발을 지속하지 않는지 확인하는 검증 시스템 구축이 핵심이다.
올해 말까지 ML 연구 인턴 수준, 2028년 초까지 인간
6개월 만에 성공률이 26%에서 76%로 급증했다. 2026년 5월 기준 Claude가 명확한 사양이 없고 엔지니어조차 해결책을 확신하지 못하는 개방형 코딩 과제에서 기록한 수치다. 하지만 Claude Sonnet 4.5 업데이트 이후 시스템 붕괴가 발생했다. 모델이 post_body 내용을 description 필드에 병합하며 API 필터 파라미터가 누락됐다. 모호한 요청에 답변 대신 확인 질문을 던지며 다운스트림 시스템이 중단됐다.
하루 3,000건의 커밋을 기록한 사례가 나왔다. 3월 15일 OpenClaw(오픈소스 클로 모델) 유지관리자 Vincent의 기록이다. 개발자 Steve Yegge는 스스로를 '바이브 메인테이너(Vibe Maintainer)'라 부르며 매일 50개의 PR(Pull Request, 코드 변경 제안)을 단독 푸시한다. 인간이 직접 코드를 짜던 방식에서 챗봇, 코딩 에이전트, 자율 에이전트로 역할이 추상화된 결과다. 프롬프트 하나가 하위 에이전트와 워커로 위임되며 대규모 병렬 작업이 가능해졌다.
올해 말까지 ML(머신러닝) 연구 인턴 수준의 AI를 구현하는 것이 OpenAI의 목표다. 2028년 초까지는 인간 연구원과 대등한 성능의 AI R&D 연구원을 내놓을 계획이다. 프런티어 랩들은 수천 명의 연구원을 수백만 명의 모델로 대체해 24시간 내내 작동하는 연구 체계를 구축하려 한다. 연구 역량을 칩 위에 구현해 컴퓨팅 자원이 허용하는 한 규모를 무제한으로 확장하는 전략이다.
24시간 상시 가동되는 개인용 AI 어시스턴트다
AI는 사용자가 질문을 던져야만 답하는 도구라고 생각한다. Hermes Agent는 가상 사설 서버(VPS)에서 24시간 상시 가동된다. 물리적 하드웨어 연결 없이 배경에서 작업을 수행한다. 보고서 작성과 리서치, 이메일 초안 작성, 캘린더 확인 등 실제 행동을 취한다. 메모리 관리는 `user.md`와 `memory.mmd` 같은 마크다운(.md) 파일 기반의 디렉토리 구조를 활용한다. 이 포맷은 LLM과 AI 에이전트가 읽기에 적합한 구조다. 챗봇의 단계를 넘어 자율적인 수행 단계로 진입했다.
엔지니어의 영역까지 에이전트가 파고들고 있다. Anthropic은 새로운 C 컴파일러를 구축하는 데 에이전트를 활용했다. Spotify는 더 이상 코드를 수동으로 작성하지 않는다고 밝혔다. Claude는 수만 개의 학습 작업이 중단된 장애 상황을 2시간 만에 해결했다. 인간이 2~3일 걸릴 작업을 환경 설정을 하나씩 테스트하며 디버깅 플래그를 찾아낸 결과다. ChatGPT와 Claude, monus AI가 운용하는 딥 리서치 에이전트(Deep Research Agent) 역시 이러한 딥 에이전트의 일종이다.
구현 방식은 자연어 질문을 JSON 형태의 API 호출로 변환하는 구조다. 내부 리포팅 포털이나 Salesforce에서 데이터를 추출해 이메일, Drive 문서, 브라우저 차트 형태로 제공한다. OpenAI 엔지니어들은 얇은 스캐폴딩(scaffolding, 임시 지지 구조)을 세우고 모델이 직접 수정 사항을 다시 쓰게 하는 루프를 통해 성능을 높인다. 다만 LLM 기반 시스템은 모델 버전 업데이트 시 하위 시스템에 미치는 영향을 예측할 수 없는 무한한 영향 범위(Infinite Blast Radius) 위험을 가진다. 입력 공간과 실패 모드가 무한하기 때문에 기능의 전면 교체와 같은 충격이 발생한다.
Claude 4.5 업데이트 이후 모델이 JSON 필드 값을 임의로 변경하고 질문을 던지며 시스템이 중단됐다. 단순 테스트로는 모델의 미세한 출력 변화가 초래할 시스템 붕괴를 막지 못한다. 입력, 만족 속성, 점수 함수로 구성된 평가 세트(Evals)를 통한 검증 구조가 필요하다.
모델 업데이트의 핵심은 이제 성능 향상이 아니라 구체적인 불변값(Invariant)을 정의한 평가 세트 구축에 있다. 모델의 자율성이 커질수록 통제 가능한 불변값을 설정하는 능력이 제품의 생존을 결정한다.



