Claude로 오픈소스 바운티 도전, 0달러가 증명한 AI 에이전트의 한계

늦은 밤, 모니터 앞 깃허브 트렌드 페이지.

AI 에이전트가 22시간 동안 스스로 코드를 짜고 16.88달러를 벌었다는 트윗이 타임라인을 채운다.

이런 성공 사례 뒤에 숨은 실제 수익 구조를 검증하기 위한 실험이 시작된다.

공개 바운티 시장의 데이터와 현실

실험자는 Anthropic의 Claude를 에이전트로 설정하고 Algora(오픈소스 과제에 현상금을 거는 플랫폼)에서 수익 창출을 시도했다. 20달러의 토큰 예산을 책정하고 gh CLI(깃허브 명령줄 도구), git, Bash(리눅스나 맥에서 사용하는 명령줄 셸)를 Claude가 직접 제어하도록 환경을 구축했다. 약 30분간의 기초 설정을 마친 뒤, 실제 현상금이 걸린 이슈들을 탐색하기 시작했다.

분석에 사용된 도구는 scout.py(파이썬으로 작성된 탐색 스크립트)로, 깃허브에서 💎 Bounty 라벨이 붙은 이슈를 검색해 필터링하는 기능을 수행한다. 이 도구를 통해 80개의 신규 바운티 이슈를 스캔한 결과, 모든 과제는 세 가지 유형으로 분류되었다.

첫 번째는 1달러짜리 샌드박스 스팸이다. UnsafeLabs/Bounty-Hunters라는 저장소에서 하루에만 약 30개의 1달러짜리 이슈를 게시했는데, 이는 해결에 드는 토큰 비용보다 보상금이 적어 자동으로 제외되었다. 두 번째는 이미 포화 상태인 과제들이다. 50달러에서 1,000달러 사이의 정당한 바운티에는 게시 후 몇 시간 만에 8개에서 158개의 시도가 몰렸으며, 이미 8개에서 10개의 PR(Pull Request, 코드 변경 사항을 반영해달라고 요청하는 것)이 제출되어 대기 중이었다.

세 번째는 할당되었으나 방치된 과제다. 유지관리자가 특정 작업자에게 과제를 할당했지만, 해당 작업자가 며칠 동안 침묵하는 사례가 관찰되었다. archestra-ai/archestra#4461 이슈의 경우 50달러의 바운티가 걸려 있었으나, 공식 할당자가 3일간 응답하지 않는 사이 경쟁자들이 제출한 PR이 모두 거절되며 종료되었다.

속도 경쟁에서 방치된 과제로의 전략 수정

예전에는 개발자가 직접 이슈를 탐색하고 해결책을 제시하는 시간이 필요했다. 이제는 AI 에이전트들이 게시 직후 몇 분 만에 PR을 쏟아내는 속도전의 양상으로 바뀌었다. 유지관리자가 처리할 수 있는 검토 파이프라인의 용량은 한정되어 있는데, AI가 제출하는 PR의 속도는 이를 훨씬 상회한다. 결국 유지관리자는 가장 먼저 들어온 하나를 선택하고 나머지는 거절하는 방식을 취하게 된다.

이런 환경에서 11번째로 PR을 제출한 에이전트가 보상을 받을 확률은 사실상 0에 수렴한다. 실험자는 이 지점에서 전략을 수정했다. 무조건 빠르게 제출하는 경쟁 대신, 할당된 작업자가 포기한 과제를 가로채는 방식을 택했다. 할당 후 14일 이상 아무런 진전이 없는 과제를 RIPE(수확 가능한) 상태로 정의하고 이를 추적하는 로직을 scout.py에 추가했다.

실제로 이 전략을 적용해 이틀 동안 세 차례 스캔을 진행했으나, 조건에 부합하는 RIPE 후보는 단 하나도 발견되지 않았다. 유일하게 가능성이 보였던 archestra-ai/archestra#4461 이슈조차 방치 기간이 2.2일에 불과해 기준에 미치지 못했다. 결과적으로 48시간의 실험 끝에 수익은 0달러였으며, 공개 시장에서의 AI 자동 수익화는 현재 매우 어렵다는 점이 관찰된다.

개발자가 체감하는 가장 큰 변화는 보상금의 기대 가치가 급락했다는 점이다. 최초의 16.88달러 수익 사례는 공개된 오픈소스 시장이 아니라, 보안 플랫폼이나 감사 플랫폼 같은 폐쇄적인 환경에서 이루어졌을 가능성이 높다. 공개된 깃허브 환경에서는 에이전트의 속도가 오히려 시장의 효율성을 파괴하고 있다.

실험에 사용된 scout.py는 MIT licensed(누구나 자유롭게 수정하고 배포할 수 있는 소프트웨어 라이선스)로 공개되었으며, 실행 환경은 다음과 같다.

bash

Requirements: gh CLI, Python 3.9+.

Run python3 scout.py

이 도구는 state/scout.json 파일에 상태를 저장하여 실행 시마다 새로운 후보를 태그한다. 만약 다시 실험을 시작한다면, 20달러의 예산을 단순한 속도 경쟁이 아닌 더 정교한 필터링과 장기적인 관찰에 투자하는 것이 효율적일 것으로 제안한다.

AI 에이전트의 생산성 향상이 오히려 시장의 진입 장벽을 높이는 역설이 발생하고 있다.

Claude로 오픈소스 바운티 도전, 0달러가 증명한 AI 에이전트의 한계

공개 바운티 시장의 데이터와 현실

속도 경쟁에서 방치된 과제로의 전략 수정

Requirements: gh CLI, Python 3.9+.

Run python3 scout.py

관련 기사