AI가 AI를 무한 수정하는 '에이전트 루프'의 등장

발표에서 확인된 핵심 사실

AI가 생성한 코드의 오류를 사람이 일일이 잡아내는 번거로움은 개발자의 일상이 됐다. 이제는 사람이 아닌 AI가 다른 AI에게 명령을 내려 코드를 수정한다. Claude Code(클로드 코드, AI 기반 코딩 도구) 제작자 Boris Cherny는 2년 전만 해도 사람이 소스 코드를 직접 작성했으나, 이후 에이전트가 코드를 작성하는 단계로 넘어왔다고 설명했다. 현재는 여기서 더 나아가 에이전트가 다른 에이전트를 유도해 코드를 작성하게 하는 루프(loop) 형태로 진화하고 있다. 그는 이 루프의 도입이 소스 코드에서 에이전트로 넘어갔던 변화만큼이나 중대한 단계라고 강조했다. 개발의 주체가 인간에서 AI로, 다시 AI 간의 상호작용으로 이동하며 생산성 구조가 바뀌고 있다. 이는 코딩의 자동화 수준이 단순 대행에서 상호 검토 체제로 전환됐음을 보여준다.

에이전트 루프는 기존 컴퓨터 과학의 재귀 루프와 작동 원리가 완전히 다르다. 전통적인 재귀 루프는 프로그래머가 미리 설정한 명확한 정지 조건이 있어야만 멈춘다. 하지만 에이전트 루프는 비결정론적(non-deterministic) 논리를 따른다. 하위 에이전트가 스스로 판단해 루프를 멈출 시점을 결정하는 방식이다. 정해진 규칙이 아니라 AI의 내부 판단이 정지 조건을 대체한다. 이는 AI가 스스로 결과물의 완성도를 평가하고 보완하는 자율적 반복 구조를 갖췄음을 의미한다. 단순한 자동화를 넘어 AI가 스스로의 작업 프로세스를 제어하는 단계로 진입했다.

기술이 실제로 작동하는 방식

AI가 생성한 코드의 오류를 사람이 일일이 수정하는 과정은 번거롭다. Boris Cherny는 코드 아키텍처 개선과 중복 추상화 통합을 위해 지속적으로 실행되는 에이전트 루프를 실무에 활용한다. 한 에이전트는 코드 아키텍처의 개선 방법을 끊임없이 찾는다. 다른 에이전트는 통합 가능한 중복 추상화를 탐색하는 업무를 수행한다. 이들은 일반 개발자와 동일하게 풀 리퀘스트(Pull Request, 코드 변경 사항 반영 요청)를 제출하며 코드를 수정한다. 코드가 계속해서 변경되는 환경이므로 에이전트들은 멈추지 않고 작동한다.

이 루프는 더 많은 연산 자원을 투입해 문제를 해결하는 테스트 시간 연산(Test-time compute, 추론 단계에서 연산량을 늘려 성능을 높이는 기술)의 일환이다. OpenAI 연구원 Noam Brown은 이달 초 충분한 연산량을 투입하면 현대 모델이 거의 모든 문제를 해결할 수 있다고 관찰했다. 특히 코드베이스 개선과 같은 힐 클라이밍(Hill-climbing, 현재 상태에서 더 나은 방향으로 점진적으로 이동하는 최적화 방식) 문제에서 이 방식이 작동한다. 모델은 정답이라는 임계치에 도달할 때까지 점진적인 개선 작업을 반복해서 수행한다.

에이전트 루프는 단순 Q&A 챗봇보다 토큰 소모가 훨씬 빠르며

단순 Q&A 챗봇은 단발성 응답으로 비용이 예측 가능하지만 에이전트 루프는 정답 도달까지 연산을 반복한다. 토큰 소모 속도가 압도적으로 빠르다. 에이전틱 AI(Agentic AI, 스스로 목표를 설정하고 실행하는 AI)의 특성을 계승하여 루프를 상시 가동하는 것을 목적으로 한다. 이 과정에서 비용 지출의 한계치가 존재하지 않는다. 일반 사용자에게는 매우 비싼 작업 방식이 되며 경제적 부담이 크다. 토큰 판매 사업을 하는 Anthropic은 사용자가 더 많은 토큰을 소비할수록 수익이 늘어나는 구조적 이점을 가진다.

모델이 너무 오래 실행되면 작업의 맥락을 놓치고 방향을 잃는 현상이 나타난다. 이를 방지하기 위해 랄프 위검(Ralph Wiggum)의 이름을 딴 Ralph Loop(수행 작업을 요약하고 목표 달성 여부를 확인하는 기법)를 적용한다. 이 기법은 모델이 지금까지 수행한 모든 작업을 요약하게 만든다. 이후 설정한 목표를 실제로 달성했는지 모델 스스로에게 묻게 하여 경로를 수정한다. 작업이 완전히 완료될 때까지 모델을 앞뒤로 계속해서 튕겨 보내는 식의 반복 수행, 즉 바운싱(Bouncing) 방식을 통해 정답에 접근한다. 무한 루프의 비용 부담을 감수하면서도 결과물의 정확도를 확보하려는 기술적 장치다.

개발자가 AI 코드의 오류를 일일이 수정하는 번거로움은 에이전트 간 상호작용으로 대체된다. 에이전트가 다른 에이전트에게 프롬프트를 보내 코드를 개선하는 루프 구조의 실효성이 증명됐다. 정답에 도달할 때까지 연산량을 투입하는 테스트 시간 연산량이 실무의 핵심 변수로 부상했다.

이제 무한 루프 에이전트 도입으로 얻는 성능 향상 폭과 투입되는 토큰 비용 간의 경제성을 평가해야 한다.

AI가 AI를 무한 수정하는 '에이전트 루프'의 등장

발표에서 확인된 핵심 사실

기술이 실제로 작동하는 방식

에이전트 루프는 단순 Q&A 챗봇보다 토큰 소모가 훨씬 빠르며

관련 기사