Ouroboros, Claude Plan Mode 제치고 시뮬레이션 벤치마크 1위 기록

이번 주 깃허브의 오픈소스 프로젝트 리스트를 살피던 개발자들 사이에서 생소한 이름의 워크플로우 도구가 주목받기 시작했다. 한국인 개발자가 공개한 Ouroboros(AI 워크플로우 최적화 도구)가 그 주인공이다. 단순한 코딩 테스트가 아니라 복잡한 시스템을 설계하고 시뮬레이션하는 고난도 과제에서 글로벌 1위를 차지했다는 소식이 전해지며 AI 에이전트 설계 방식에 대한 논의가 다시 시작되었다.

Ouroboros의 시뮬레이션 벤치마크 1위 달성

연구팀이 공개한 AI-assisted discrete-event simulation(이산 사건 시뮬레이션, 특정 시점에 발생하는 사건을 중심으로 시스템 변화를 분석하는 기법) 벤치마크에서 Ouroboros가 전체 1위를 기록했다. 이번 과제는 광산 운송 시스템을 대상으로 트럭, 적재 및 하역 지점, 경로, 대기열 같은 시스템 구조를 정확히 이해하고 이를 모델로 추상화하는 능력을 평가했다. 구체적으로는 어떤 이벤트가 발생하고 상태가 어떻게 변하며, 병목 현상이나 처리량, 대기 시간 같은 지표를 어떻게 측정할지 설계하는 과정이 포함되었다.

Ouroboros는 Claude Code(터미널 기반의 AI 코딩 도구) 환경에서 실행되었으며, 최종 결과물로 실행 가능한 시뮬레이션 코드와 함께 광산 트럭이 광석을 운반하는 애니메이션, topology diagram(망 구성도, 시스템의 연결 구조를 시각화한 도표)을 제출했다. 이는 AI가 단순한 코드 생성을 넘어 시스템의 전체 맥락을 파악하고 사람이 이해할 수 있는 시각적 산출물까지 만들어낼 수 있음을 보여준다. 관련 상세 내용은 Ouroboros GitHub와 벤치마크 페이지에서 확인할 수 있다.

구조적 워크플로우와 단순 지침의 성능 차이

예전에는 AI의 성능을 높이기 위해 프롬프트를 길게 작성하거나 거대한 스킬 셋을 한꺼번에 주입하는 방식이 주류였다. 하지만 이번 테스트에서 소위 superpowers라고 불리는 fat skills(방대한 기능을 한꺼번에 넣은 무거운 스킬 셋) 기반 접근은 Anthropic의 기본 plan mode(AI가 스스로 계획을 세워 작업을 수행하는 기능)보다 오히려 낮은 성능을 보였다. 반면 Ouroboros는 문제 정의, 계획, 실행, 평가, 복구라는 단계적 구조를 가진 워크플로우를 적용해 더 정교한 결과물을 냈다.

개발자가 바로 체감하는 변화는 예외 상황에 대응하는 복구 능력에서 나타난다. 실행 과정 중 MCP server(Model Context Protocol server, AI 모델이 외부 데이터나 도구에 접근할 수 있게 돕는 표준 규격 서버)가 작동하지 않는 실패 상황이 발생했음에도, Ouroboros는 skills 기반의 fallback(대체 경로 실행, 주 기능 실패 시 예비 수단으로 전환하는 방식)을 통해 작업을 완수했다. 이는 AI 에이전트가 이상적인 환경이 아니라 실제의 불안정한 인프라 위에서 작동할 때, 정교하게 설계된 복구 루프가 얼마나 중요한지를 입증하는 사례로 관찰된다.

결국 AI 에이전트의 실무적 가치는 모델의 파라미터 크기가 아니라 실패를 인지하고 경로를 수정하는 워크플로우의 정교함에서 결정된다.

Ouroboros, Claude Plan Mode 제치고 시뮬레이션 벤치마크 1위 기록

Ouroboros의 시뮬레이션 벤치마크 1위 달성

구조적 워크플로우와 단순 지침의 성능 차이

관련 기사