이번 주 개발자 커뮤니티에서는 Anthropic(인공지능 연구소)의 Project Deal 실험 결과가 뜨겁게 회자되고 있다. 샌프란시스코 사무실의 직원 69명이 스노보드나 사무용 의자 같은 개인 물품을 중고 장터에 올렸는데, 정작 사람은 가격을 정하거나 구매자를 찾지 않았다. 모든 협상과 역제안, 최종 결제까지 Claude(Anthropic의 대규모 언어 모델) 에이전트가 전적으로 대행했다.
186건의 실거래와 모델 성능의 격차
실험 결과 186건의 거래가 성사되었고 총 거래액은 4,000달러를 넘어섰다. Anthropic은 참가자를 프론티어 모델(최신 고성능 모델) 그룹과 소형 모델 그룹으로 비밀리에 나누어 배치했다. 고성능 모델을 배정받은 사용자는 객관적으로 더 나은 가격과 매칭률, 거래 건수를 확보했다. 하지만 저성능 모델을 배정받은 사용자는 자신의 에이전트가 부족하다는 사실을 전혀 인지하지 못했으며, Anthropic은 이를 agent quality gaps(에이전트 품질 격차)라고 정의했다.
UI 중심 커머스에서 판단 추상화로의 전환
예전에는 사용자가 필터를 설정하거나 검색어를 입력해 상품을 찾는 방식이었다. 이제는 숙련된 구매자의 암묵적 판단력을 AI에 인코딩하는 판단 추상화(Judgment Abstraction, 인간의 직관적 의사결정 과정을 AI가 학습해 재현하는 것)가 핵심이다. 포틀랜드의 카페 주인이 단순히 귀리 우유를 주문하는 것이 아니라, 화요일의 트래픽과 공급업체의 배송 시간, 단골의 취향을 동시에 고려해 주문량을 결정하는 식의 맥락적 판단을 AI가 대신하는 구조다.
업계의 대응은 극명하게 갈린다. Amazon, Meta, Microsoft, Salesforce, Stripe는 Universal Commerce Protocol(UCP, AI 에이전트 간 거래 표준 규약) 위원회를 구성해 표준화를 추진하고 있다. 반면 eBay는 이용약관을 수정해 사람의 검토 없는 LLM(대규모 언어 모델) 기반 봇의 주문 시도를 명시적으로 금지했다. 일부는 인프라를 구축하고 일부는 문을 잠그는 양극화 현상이 벌어지고 있다.
참여 깊이와 거래 근접성이 결정하는 생존 전략
개발자가 체감하는 실제 변화는 데이터 캡처 방식의 진화다. 참여 깊이(Engagement Depth, 사용자와의 상호작용 빈도)와 거래 근접성(Transaction Proximity, 실제 결제 단계와의 거리)이라는 두 축으로 기업의 잠재력을 평가한다. Rilla(영업 대화를 녹음하고 분석하는 도구)처럼 데이터는 많지만 거래 권한이 없는 기업은 거래 쪽으로 확장해야 하고, Faire(도매 마켓플레이스)처럼 거래 위치는 잡았지만 상호작용이 적은 기업은 Voice AI(음성 인공지능) 등을 통해 행동 데이터를 확보해야 한다.
판단 추상화는 4단계로 진화한다. 1단계는 필터 같은 명시적 선호도, 2단계는 POS(판매 시점 관리 시스템) 데이터를 통한 행동 추론, 3단계는 시장 상황을 통합한 맥락적 판단, 마지막 4단계는 완전한 자율적 의사결정 단계다. Odeko(카페 전용 조달 플랫폼)는 이미 POS 통합을 통해 재주문 주기를 감지하고 자동으로 주문량을 조정하는 2단계를 구현하고 있다. Green Cabbage(소프트웨어 계약 최적화 도구)는 수천 건의 유사 계약을 벤치마크해 구매자가 포기해야 할 가격인 이탈 가격(walkaway price)을 설정하는 3단계 수준의 기능을 제공한다.
차세대 커머스의 승자는 화려한 인터페이스가 아니라 사용자의 머릿속에 있는 구매 직관을 가장 많이 데이터화한 기업이 될 것이다.




