이번 주 개발자 커뮤니티에서는 AI 에이전트가 웹 인터페이스를 조작하는 두 가지 방식인 비전(Vision) 모드와 구조화 API(Structured API) 호출 간의 성능과 비용 효율성을 비교한 데이터가 공개되었다. 실험 저장소에 따르면, 동일한 관리자 패널 작업에서 비전 에이전트는 API 방식 대비 약 45배 높은 입력 토큰을 소비하며 실행 시간 또한 50배 이상 길게 나타났다.

비전 에이전트와 API 에이전트의 작업 수행 데이터

실험은 고객, 주문, 리뷰를 관리하는 관리자 패널(react-admin Posters Galore 데모)을 대상으로 진행되었다. 비전 에이전트는 browser-use(웹 브라우저를 자동화하는 라이브러리)를 통해 화면을 스크린샷으로 찍고 클릭하는 방식을 취했다. 반면 API 에이전트는 애플리케이션의 HTTP 엔드포인트를 직접 호출하여 구조화된 응답을 받아 처리했다. Claude Sonnet 모델을 기준으로 비전 경로는 평균 53단계, 1003초, 550,976개의 입력 토큰을 사용했다. 반면 API 경로는 8번의 호출, 19.7초, 12,151개의 입력 토큰으로 작업을 완료했다. 특히 비전 에이전트는 스크롤 영역 아래에 있는 데이터를 인지하지 못해 작업을 누락하는 등 비결정적인 결과를 보였다.

14단계 UI 가이드와 실행 변동성 비교

예전에는 비전 에이전트가 스스로 UI를 탐색하게 두었으나, 이번 테스트에서는 공정한 비교를 위해 14단계의 명시적인 UI 워크스루(Walkthrough) 지시를 추가했다. 안내를 받은 비전 에이전트는 작업을 완수했으나, 실행에 14분이 소요되었고 약 50만 개의 입력 토큰이 소비되었다. 이는 모델의 추론 능력보다 인터페이스 구조가 비용을 결정한다는 사실을 보여준다. 비전 방식은 스크린샷을 찍고 해석하는 과정에서 매번 방대한 토큰을 소모하지만, API 방식은 필요한 데이터만 구조화된 형태로 받아오기 때문에 실행 시간과 비용의 변동성이 극히 낮다. Reflex(파이썬으로 웹 앱을 만드는 프레임워크) 0.9 버전의 이벤트 핸들러 자동 생성 기능을 활용하면, 내부 도구 개발 시 API 경로를 구축하는 엔지니어링 비용을 획기적으로 낮출 수 있다.

비전 에이전트는 수정 권한이 없는 레거시 시스템이나 외부 SaaS(Software as a Service, 서비스형 소프트웨어)를 조작할 때 여전히 유효한 선택지다. 그러나 직접 구축하는 내부 도구 환경에서는 API 엔드포인트를 노출하는 방식이 비용과 정확도 측면에서 압도적인 우위를 점한다.