다음 회의는 28분 뒤에 시작합니다라는 AI 에이전트의 답변을 믿고 준비했는데, 실제로는 88분 뒤였다. 1시간의 오차가 발생한 이유는 AI가 UTC(협정 세계시)를 PT(태평양 표준시)로 바꾸는 단순한 암산을 하다가 틀렸기 때문이다. 사용자는 AI가 똑똑하다고 믿었지만, 정작 AI는 아주 기초적인 시간 계산에서 무너진 셈이다.
Garry Tan이 제안하는 Skillify의 10단계 검증 체계
Y Combinator(초기 스타트업 액셀러레이터)의 대표 Garry Tan은 이러한 AI 에이전트의 반복적인 실수를 해결하기 위해 Skillify라는 방법론을 제시했다. 그는 AI가 틀렸을 때 단순히 프롬프트를 수정하는 임시방편에서 벗어나, 해당 실수를 다시는 반복하지 않게 만드는 영구적인 구조물을 세워야 한다고 주장한다. 이 과정의 핵심은 실패한 경험을 하나의 스킬로 변환하는 것이다.
Skillify의 스킬은 마크다운 형식의 절차서와 결정론적 스크립트(입력값이 같으면 항상 같은 결과가 나오는 코드), 그리고 자동화된 테스트의 조합으로 구성된다. 이를 위해 Tan은 10단계의 엄격한 체크리스트를 적용한다. 먼저 SKILL.md라는 절차서를 작성하고, 정답을 즉시 도출할 수 있는 결정론적 스크립트를 짠다. 이후 vitest(자바스크립트 테스트 프레임워크)를 이용한 유닛 테스트와 통합 테스트를 수행한다.
검증은 여기서 끝나지 않는다. LLM-as-judge(LLM이 다른 LLM의 답변을 평가하는 방식)를 통해 결과물을 평가하고, 리졸버 트리거(특정 조건에서 스킬을 실행시키는 장치)를 등록한 뒤 다시 평가한다. 마지막으로 기능의 도달 가능성과 중복 여부를 감사하고, E2E 스모크 테스트(전체 시스템이 기본적으로 작동하는지 확인하는 간단한 테스트)와 브레인 파일링 규칙까지 통과해야 비로소 하나의 스킬로 인정된다.
실제 사례로 10년 전 싱가포르 출장 일정을 물었을 때, 에이전트가 라이브 API(외부 프로그램과 데이터를 주고받는 통로)를 5분 동안 호출하며 헤맨 일이 있었다. 하지만 실제 정답은 이미 로컬에 인덱싱된 3,146개의 캘린더 파일 안에 있었다. 에이전트가 이미 가지고 있는 데이터를 활용하는 스크립트를 실행하는 대신, 굳이 외부 API를 호출하는 추론을 선택했기 때문에 발생한 비효율이었다.
추론의 영역과 코드의 영역을 분리하는 전략
Skillify가 기존의 접근법과 다른 점은 AI의 능력을 두 가지 영역으로 명확히 나눈다는 것이다. 하나는 판단이 필요한 Latent(잠재적 추론 영역)이고, 다른 하나는 정밀성이 필요한 Deterministic(결정론적 실행 영역)이다. 쉽게 말하면 Latent는 사람의 직관이나 추측에 가깝고, Deterministic은 계산기나 사전의 작동 방식에 가깝다.
비유하자면 LangChain(LLM 애플리케이션 개발 프레임워크) 같은 도구들이 헬스장 회원권을 제공하는 것이라면, Skillify는 매일 어떤 운동을 몇 회 해야 하는지 적힌 정교한 운동 루틴표를 짜주는 것과 같다. 도구만 있다고 해서 몸이 좋아지지 않듯, 테스트 도구만 있다고 해서 에이전트의 품질이 올라가지는 않는다. 실패를 분석하고 이를 코드로 박제하는 구체적인 워크플로가 있어야만 성능이 개선된다.
이러한 관점은 2005년경 소프트웨어 엔지니어링에서 정립된 회귀 테스트(수정 후 기존 기능이 망가지지 않았는지 확인하는 테스트) 원칙을 AI 에이전트에 이식한 것이다. Hermes Agent(Nous Research에서 개발한 AI 에이전트)처럼 스킬을 자동으로 생성하는 도구들이 있지만, 검증 단계가 없으면 시간이 흐를수록 스킬이 부패하여 성능이 떨어진다. 생성보다 중요한 것이 검증이라는 뜻이다.
또한 시스템의 규모가 커지면 발견 가능성의 문제도 발생한다. Tan이 40개 이상의 스킬을 운영하며 확인한 결과, 약 15%의 스킬이 리졸버에 등록되지 않아 정작 필요할 때 호출되지 않는 어둠 속 기능이 되었다. 이는 에이전트가 아무리 많은 능력을 갖춰도, 적절한 시점에 그 능력을 꺼내 쓸 수 있는 관리 체계가 없으면 무용지물임을 시사한다.
AI 에이전트의 완성도는 프롬프트의 화려함이 아니라, 실패를 코드로 박제하는 집요한 기록 습관에서 결정된다.




