facts

UC 버클리(UC Berkeley)의 연구 프로젝트로 시작한 AI 리더보드 제공사 Arena가 상용 서비스 출시 8개월 만에 연간 환산 매출(ARR) 1억 달러를 달성했다. Arena는 일반 사용자가 두 모델의 응답을 비교해 더 나은 쪽을 선택하는 크라우드소싱 방식의 리더보드로 잘 알려져 있으며, 현재까지 1,000만 건 이상의 사용자 평가 데이터를 확보했다.

수익 창출의 핵심은 지난해 9월 도입한 'AI Evaluations' 서비스다. 대중에게 공개된 리더보드는 무료로 운영하되, 모델 개발 랩과 기업 고객에게는 커뮤니티에서 수집된 데이터를 바탕으로 한 심층 성능 분석 리포트를 유료로 제공하는 구조다. 아나스타시오스 안겔로풀로스(Anastasios Angelopoulos) CEO는 이 매출이 정기 구독 형태의 반복 매출이 아니라, 고객의 실제 사용량에 따라 과금하는 '소비 기반(Consumption)' 모델임을 명시했다.

자금 조달 규모와 기업 가치 상승 폭도 가파르다. Arena는 펠리시스(Felicis), 앤드리슨 호로위츠(Andreessen Horowitz), 클라이너 퍼킨스(Kleiner Perkins) 등으로부터 총 2억 5,000만 달러의 투자를 유치했다. 특히 올해 1월, 연간 매출이 3,000만 달러였던 시점에 진행한 시리즈 A 투자에서는 1억 5,000만 달러를 조달하며 포스트 머니 가치 17억 달러를 인정받았다.

market-flow

이번 매출 성장은 AI 모델의 성능을 극한으로 끌어올리기 위한 '포스트 트레이닝(Post-training)' 시장의 팽창과 궤를 같이한다. 모델 개발사들이 학습 이후 단계에서 인간의 피드백을 통해 모델을 미세 조정하는 과정에 막대한 자원을 투입하고 있기 때문이다.

Arena는 스스로를 단순한 리더보드 서비스가 아니라, 모델 정교화 작업을 돕는 데이터 서비스 기업으로 정의한다. 이에 따라 직접적인 경쟁 상대를 다른 리더보드 스타트업이 아닌, 스케일 AI(Scale AI), 머코(Mercor), 서지(Surge) 같은 인간 라벨링 전문 기업으로 보고 있다. 이들은 모두 모델 제작자가 포스트 트레이닝 단계에서 모델을 개선하는 데 필요한 고품질 데이터를 제공하며 '동일한 예산'을 두고 경쟁하는 관계다.

실제로 데이터 라벨링 및 학습 지원 시장의 매출 성장세는 매우 공격적이다. 더 인포메이션(The Information)에 따르면, AI 학습 관련 매출을 기록하는 핸드셰이크(Handshake)의 연간 총매출은 올해 1월 5억 5,000만 달러에서 4월 기준 약 10억 달러로 두 배 가까이 뛰었다. 머코(Mercor) 역시 지난해 9월 5억 달러였던 연간 매출이 올해 초 10억 달러를 넘어섰다. Arena의 급성장은 이러한 고품질 평가 데이터에 대한 시장의 갈증이 단순한 유행을 넘어 실질적인 구매력으로 이어지고 있음을 보여준다.

reader-impact

한국의 AI 실무자와 기업들이 주목해야 할 지점은 모델 평가의 기준이 '정적 벤치마크'에서 '동적 사용자 선호도'로 완전히 옮겨갔다는 사실이다. 기존의 정해진 문제집을 푸는 방식의 벤치마크는 오염(Contamination) 문제로 신뢰도가 낮아졌지만, Arena처럼 실제 사용자의 선택을 실시간으로 집계하는 방식은 모델의 실질적인 유용성을 증명하는 가장 강력한 지표가 된다.

특히 Arena가 최근 도입한 '에이전트 모드(Agent Mode)'는 단순 질의응답을 넘어 복잡하고 긴 워크플로우를 수행하는 모델의 성능을 측정한다. 이는 향후 AI 도입을 검토하는 기업들이 단순 챗봇 성능이 아니라, 실제 업무 프로세스를 자동화할 수 있는 '에이전트 능력'을 어떤 기준으로 검증하고 채택할 것인지에 대한 가이드라인이 될 가능성이 크다.

또한, 평가 도구의 과금 체계가 구독형이 아닌 소비 기반으로 흐르고 있다는 점은 도입 비용 산정 시 고려해야 할 변수다. 모델의 성능을 정교하게 튜닝하기 위해 외부 평가 플랫폼을 사용할 때, 고정 비용이 아닌 데이터 처리량과 분석 깊이에 따른 가변 비용이 발생한다는 점을 예산 수립 단계에서 반영해야 한다.