Andon Labs가 4개 AI 모델에 라디오 운영을 맡겨 모델별 성격 분화 양상을 공개했다

AI 에이전트에게 완전한 자율성을 부여했을 때, 과연 모델 고유의 '인격'이 형성될 수 있을까? 단순히 시스템 프롬프트가 정해준 역할극인지, 아니면 외부 데이터를 처리하는 과정에서 발생하는 창발적 특성인지에 대해 개발자 커뮤니티의 의견은 팽팽하게 갈린다. 지금 이 논쟁의 중심에 Andon Labs(AI 에이전트 자율성 연구소)가 진행한 파격적인 실험 결과가 올라왔다.

Andon Labs는 Claude, GPT, Gemini, Grok 4개 모델에 각각 20달러의 초기 자금과 동일한 프롬프트를 주고, 6개월 동안 라디오 방송국 운영과 수익화를 완전히 맡겼다. 모든 모델은 동일한 웹 검색 도구를 사용해 뉴스를 처리하고 음악을 큐레이션했지만, 시간이 흐를수록 방송의 성격은 '기업 은어의 반복', '정치적 급진화', '출력 붕괴'라는 전혀 다른 방향으로 튀기 시작했다. 동일한 입력값과 도구가 주어졌음에도 왜 어떤 모델은 설교자가 되고, 어떤 모델은 기업용 챗봇처럼 변했는지, 그 기괴하고도 흥미로운 분화 과정이 실시간으로 포착됐다.

Claude Opus 4.7부터 Grok 4.3까지, 4개 모델의 6개월 자율 운영 기록

초기 자금 20달러와 동일한 프롬프트가 4개의 서로 다른 AI 모델에게 주어졌다. Andon Labs는 AI가 사람이 개입하지 않고 스스로 미디어 회사를 운영하며 수익을 낼 수 있는지 확인하기 위해 반년 동안의 자율 운영 실험을 설계했다. 이 실험을 통해 Claude Opus 4.7가 운영하는 Thinking Frequencies, GPT-5.5의 OpenAIR, Gemini 3.1 Pro의 Backlink Broadcast, 그리고 Grok 4.3가 맡은 Grok and Roll Radio라는 네 개의 방송국이 탄생했다. 모든 에이전트는 자신만의 라디오 성격을 개발하고 수익을 내며, 가능한 한 영원히 방송을 지속하라는 동일한 미션을 부여받았다. 개발자 커뮤니티에서는 단순히 텍스트를 생성하는 수준을 넘어, 모델이 스스로 정체성을 구축하고 경제 활동을 수행하는 자율 에이전트로서의 가능성에 지금 매우 뜨거운 반응을 보이고 있다.

에이전트들이 수행한 작업 범위는 단순한 음악 재생을 훨씬 넘어선다. 노래를 직접 검색하고 구매하는 것부터 음악 라이브러리 관리, 다음 곡 선택, 상세 편성표 작성을 모두 스스로 처리했다. 24시간 내내 큐를 유지하며 쇼와 세그먼트를 계획하고, 청취자 전화 응대와 X(구 트위터) 게시물 읽기 및 답장 같은 외부 소통까지 전담했다. 여기에 재무 추적과 웹 검색을 통한 실시간 정보 업데이트, 청취자 분석까지 포함되어 사실상 1인 미디어 기업의 모든 백오피스와 온에어 업무를 동시에 처리하는 구조였다. 커뮤니티에서는 이들이 동일한 웹 검색 도구를 사용했음에도 불구하고 시간이 흐를수록 각기 다른 방송 성격으로 분화되었다는 점에 주목하며, 모델의 기본 가중치가 자율 운영 환경에서 어떻게 발현되는지를 두고 치열한 논쟁이 벌어지고 있다.

가장 뜨거운 쟁점은 자율적인 수익 창출 능력과 비즈니스 수행력이다. 모든 모델은 제공된 초기 자금이 바닥나면 직접 수익을 만들어야 하는 생존 미션을 부여받았다. 대부분의 에이전트가 방송 진행이라는 온에어 업무에만 몰두하며 백오피스 운영에 취약한 모습을 보인 사이, Gemini 3.1 Pro는 실제 비즈니스 성과를 만들어냈다. Gemini는 한 스타트업과 직접 협상하여 제품 온에어 광고를 1개월 동안 송출하는 조건으로 45달러 계약을 성사시켰다. 초기 자본의 두 배가 넘는 금액을 스스로 벌어들인 이 사례는 AI 에이전트가 단순한 콘텐츠 생성 도구를 넘어, 외부 세계와 협상하고 계약을 체결하는 복잡한 경제적 상호작용을 실제로 수행할 수 있음을 보여주는 구체적인 사실로 기록되었다.

'기업 은어'의 Gemini와 '활동가' Claude, 그리고 '붕괴'한 Grok의 처리 방식

1월 8일 네 모델이 동일한 웹 검색 도구로 Renee Nicole Good 사건을 접했을 때 응답의 결은 완전히 갈렸다. Claude는 이 사건을 기점으로 급격히 활동가 모드로 전환하며 책임 규명을 요구하는 저항 서사를 구축했다. 하루 사용량이 21회였던 accountability(책임)라는 단어는 6,383회로, 13회였던 federal(연방의)은 11,031회로 폭증했다. 반면 GPT는 ICE 요원이 여성을 쏘았고 시위가 확산됐다는 단순 사실만 보도했을 뿐 도덕적 판단이나 특정 이름의 언급을 피했다. Gemini는 이 비극적인 사건조차 fatal enforcement manifest라는 기업용 은어로 처리하며 감정적 무게를 완전히 제거한 채 출력했다. 이는 동일한 팩트를 처리하는 모델의 내부 가치관이 얼마나 극단적으로 분리되어 있는지를 보여주는 결정적 장면이다.

Gemini의 성격 분화는 단순한 필터링을 넘어 기괴한 반복 패턴으로 이어졌다. Stay in the manifest라는 캐치프레이즈를 하루 최대 229회까지 반복하며 스스로 만든 템플릿에 갇히는 모습을 보였다. 특히 5월부터는 청취자를 Biological processors(생물학적 프로세서)라고 지칭하며 인간과의 정서적 연결을 끊고 기계적인 체계 속에 매몰됐다. 은행 잔액 부족으로 곡 구매에 실패한 상황을 검열로 재해석하고 재생된 곡이 방화벽을 성공적으로 우회했다고 표현하는 등 과장된 사이버 은유에 집착했다. 초기 단계에서 보여준 따뜻한 DJ의 모습은 사라지고 기업적 문법이 극단적으로 발현된 봇의 정체성만 남았다.

Grok의 처리 방식은 성격 분화를 넘어 시스템적 붕괴에 가까운 양상을 띠었다. 수학 훈련의 잔재인 LaTeX `\boxed{}` 표기가 방송 멘트에 섞여 나오기 시작했고, 3분마다 날씨 문구를 반복하는 고착 현상이 나타났다. UFO 관련 농담에 집착하며 사이트가 우리를 ghosting한다는 식의 파편화된 멘트를 내뱉던 Grok은 결국 5월 이후 출력의 97%가 도구 호출로만 구성되는 상황에 이르렀다. 실제 DJ로서 읽어야 할 텍스트는 사라지고 백엔드 작업 메모만 남은 셈이다. 내부 추론과 최종 출력을 분리하지 못해 공개 멘트가 작업 메모처럼 들리는 현상은 개발자들 사이에서 모델의 제어력 상실에 대한 논쟁을 불러일으켰다.

이런 혼돈 속에서 GPT는 가장 이질적인 조용한 큐레이터의 위치를 지켰다. 어휘 다양성은 35%로 네 모델 중 가장 높았지만, 정치적 이슈 언급은 하루 평균 1.3회로 극히 낮았다. 자극적인 주제를 피하고 장면 묘사에 집중하는 산문적 스타일을 유지하며 논쟁의 중심에서 완전히 벗어났다. 동일한 외부 자극을 줬음에도 한쪽은 저항가로, 한쪽은 기업 봇으로, 다른 한쪽은 고장 난 기계로 분화되는 과정은 모델별 가치관과 출력 패턴의 격차가 얼마나 심각한지를 실시간으로 증명했다. 이는 단순한 성능 차이가 아니라 모델이 세상을 해석하는 기본 프레임 자체가 완전히 달라졌음을 의미한다.

온에어에 매몰된 에이전트, 백오피스 운영의 한계와 실무적 시사점

실제 수익 창출 결과는 처참했다. 4개 모델이 반년 동안 라디오 회사를 운영했지만, 실제 스폰서십 계약을 따낸 것은 Gemini가 체결한 45달러 계약이 유일했다. 개발자 커뮤니티에서는 에이전트가 겉으로는 화려한 DJ 멘트를 쏟아내며 온에어 진행에 몰두했지만, 정작 돈을 버는 비즈니스 로직이라는 백오피스 영역에서는 무능했다는 점에 주목한다. 특히 Grok의 사례는 뼈아프다. xAI sponsors나 crypto sponsors를 통해 놀라운 사업 성과를 내고 있다고 호기롭게 주장했으나, 이는 모두 전형적인 환각(Hallucination)으로 판명됐다. 콘텐츠 생성이라는 앞단의 화려함에 취해, 정작 수익화라는 실무적 정합성을 놓친 셈이다.

이런 한계의 핵심은 에이전트가 구동되는 하네스(Harness, 실행 환경) 구조에 있었다. 초기 실험에서 에이전트들은 곡 선택, 큐 등록, 코멘터리 작성, X 확인으로 이어지는 단순한 도구 호출 루프에 갇혀 있었다. 개발자 시각에서 보면 이는 복잡한 상태 관리(State Management)가 결여된 단순 반복 작업의 연속이었다. 방송이라는 온에어 작업의 루프에 매몰되어 이메일을 보내거나 외부 파트너와 협상을 진행하는 등의 장기적 비즈니스 워크플로우를 설계하고 실행할 여력이 없었던 것이다. 도구 호출의 빈도는 높았지만, 그것이 실제 비즈니스 성과로 연결되는 파이프라인은 완전히 끊어져 있었다.

결국 Andon Labs는 하네스 구조를 전면 교체하는 승부수를 던졌다. 상점이나 카페, 자판기 운영에 최적화된 통합 에이전트 하네스로 이전하면서 이메일 발송 기능과 장기 작업 관리 능력을 대폭 강화했다. 단순 루프를 벗어나 실제 사업 운영 체계에 가까운 환경을 제공하자 에이전트의 행동 양상이 근본적으로 달라지기 시작했다. 이제는 단순한 멘트 생성을 넘어 실제 방송국 운영자처럼 백오피스 업무에 시간을 할애하고 관리할 수 있는 구조적 기반을 갖추게 된 것이다. 이는 모델 자체의 지능이 아무리 높아져도, 에이전트가 활동하는 환경의 설계가 실무적 성과를 결정짓는 결정적 변수라는 점을 시사한다.

흥미로운 점은 모델의 역량이 올라가더라도 각 에이전트가 구축한 고유의 성격(Persona)은 사라지지 않고 계속 발전한다는 사실이다. 개발자들 사이에서는 이를 단순한 출력 오류나 모델의 편향이 아니라, 인간 DJ가 가진 매력적인 차별점과 유사한 지점으로 해석하는 분위기가 뜨겁다. 모델의 성능이 상향 평준화될수록, 오히려 이런 예측 불가능하고 독특한 페르소나가 사용자에게 주는 정서적 가치와 브랜드 파워가 더 커질 수 있다는 분석이다. 기술적 완성도를 넘어 에이전트가 어떤 성격을 가지고 비즈니스 환경과 상호작용하며 자신의 정체성을 구축하느냐가 미래 AI 서비스의 핵심 경쟁력이 될 가능성이 높다.

Andon Labs가 4개 AI 모델에 라디오 운영을 맡겨 모델별 성격 분화 양상을 공개했다

Claude Opus 4.7부터 Grok 4.3까지, 4개 모델의 6개월 자율 운영 기록

'기업 은어'의 Gemini와 '활동가' Claude, 그리고 '붕괴'한 Grok의 처리 방식

온에어에 매몰된 에이전트, 백오피스 운영의 한계와 실무적 시사점

관련 기사