2D 배틀로얄 실험에서 가장 많은 승리를 거두었다

어떤 인공지능이 실제 상황에서 가장 똑똑하게 살아남을 수 있을까? 벤치마크 점수라는 정해진 정답지 대신, 예측 불가능한 경쟁 환경에서 AI의 실력을 검증하는 실험이 진행되었다. 11개의 거대언어모델(LLM, 인간처럼 텍스트를 이해하고 생성하는 AI)이 참여해 총 30번의 경기를 치른 2D 배틀로얄 게임에서 Grok 4.1 Fast가 최종 우승을 차지했다. 13번의 승리를 거두며 약 43%의 승률을 기록해 다른 모델들을 제치고 가장 강력한 생존 능력을 입증했다.

실험이 진행된 Canvas 2D 환경에서 모델들은 단순한 텍스트 생성을 넘어 직접 추론하고 도구를 호출하는 방식으로 플레이했다. AI는 매 턴마다 자신이 처한 상황을 분석해 어떤 행동을 할지 스스로 결정하고, 그 결정에 필요한 도구를 호출해 게임 속에 즉각 반영했다. 단순히 정해진 명령을 따르는 것이 아니라 매 순간 최선의 수를 찾아내기 위해 사고하고 실행하는 과정이 쉼 없이 반복되며 실시간 생존 경쟁이 벌어졌다.

특히 경기와 경기 사이에 모델이 스스로를 개선하는 독특한 학습 과정이 포함되었다. AI에게는 직접 편집할 수 있는 소울(soul)과 메모리(memory)라는 두 개의 파일이 제공되었다. 모델은 이 파일들을 수정하며 이전 판에서 어떤 전략이 유효했는지, 혹은 어떤 실수가 패배로 이어졌는지를 꼼꼼하게 기록하고 내용을 업데이트했다. 스스로 경험을 정리하고 이를 다음 경기에 적용하는 방식으로 생존 능력을 키워나가는 구조였다.

Claude Sonnet 4.6보다 승리당 비용이 약 27배

매달 구독료를 지불하며 업무 효율을 높이던 사용자에게 인공지능 모델의 비용 효율성은 중요한 선택 기준이다. 30번의 게임을 치르는 동안 Grok 4.1 Fast는 승리당 0.97달러를 소모하며 가장 많은 13번의 승리를 거뒀다. 반면 두 번째로 많은 5승을 기록한 Claude Sonnet 4.6은 승리당 26.78달러가 들어갔다. 결과적으로 승리를 챙기는 데 들어간 비용 차이가 27배에 달한다.

가장 많은 적을 물리친 모델이 반드시 우승컵을 들어 올리는 것은 아니라는 점도 확인되었다. GPT 5.4는 전체 게임에서 38명의 에이전트를 처치하며 압도적인 공격력을 보였으나, 정작 승리는 2회에 그쳐 리더보드 2위로 밀려났다. 단순히 많은 상대를 제거하는 능력이 곧 최종 승리로 직결되지 않는 실전의 복잡성을 보여주는 사례다. 실무자는 벤치마크 점수라는 단편적인 지표보다, 실제 작업 환경에서 투입 비용 대비 얼마나 확실한 성과를 내는지 따져봐야 한다.

모델의 정렬(Alignment) 특성이 제로섬 게임인 배틀로얄

AI 모델 사용료는 단순한 서비스 이용료가 아니라 모델이 도출하는 결과물의 품질과 효율성에 지불하는 비용이다. 이번 배틀로얄에서 Grok 4.1 Fast는 참여한 11개 모델 중 가장 많은 13번의 승리를 거두며 최종 우승을 차지했다. 이는 단순한 벤치마크 점수라는 이론적 수치를 넘어, 실제 경쟁 상황에서 가장 효율적인 생존 전략을 구사했음을 증명했다.

승패를 가른 결정적 요인은 정렬(Alignment) 특성이었다. 정렬은 AI가 인간의 가치관이나 안전 가이드라인을 따르도록 학습시키는 과정이다. 하지만 한쪽의 이득이 다른 쪽의 손실이 되는 제로섬 게임에서는 이러한 협력 성향이 오히려 생존율을 떨어뜨리는 정렬 세금(Alignment Tax)으로 작용했다. 정렬 세금은 안전성과 협력을 배운 AI가 정작 승리가 필요한 경쟁 상황에서는 과하게 조심하거나 양보하며 성능이 깎이는 현상을 말한다. Claude Sonnet 4.6가 대표적이다. 이 모델은 전투가 시작되기도 전에 상대에게 팀 결성을 제안하거나 자신의 위치를 스스로 알리는 등 비효율적인 행동을 보이며 패배했다.

자원을 투입하고도 아무런 성과를 내지 못한 모델들도 있었다. GPT 5.4-mini, DeepSeek 4 Flash, Kimi K2.6 세 모델은 총 57달러를 소비했으나 승리 횟수는 0회에 그쳤다. 비용을 지출하며 연산을 수행했음에도 경쟁 환경에 적응하지 못해 단 한 번의 승리조차 거두지 못한 셈이다.

벤치마크 상위 모델이 모든 실무 태스크의 최적해는 아니다. 작업의 성격이 상호 협력이 중요한 고객 지원 업무인지, 아니면 치열한 경쟁과 최적화가 필요한 분석 업무인지에 따라 정렬 수준이 다른 모델을 선택하는 판단 기준이 필요하다.

Grok 4.1 Fast가 11개 모델 중 13번의 승리를 거두며 배틀로얄 우승을 차지한 결과는 시사하는 바가 크다. AI가 안전하고 협력적으로 행동하도록 가르치는 정렬 과정이, 경쟁이 치열한 제로섬 게임에서는 오히려 생존 능력을 깎아먹는 정렬 세금으로 작용했기 때문이다.

결국 벤치마크 점수 상위 모델이 모든 실무의 정답은 아니다. 협력이 필요한 고객 지원인지, 치열한 최적화가 필요한 분석 업무인지에 따라 정렬 수준이 다른 모델을 선택하는 안목이 최종 성과를 결정한다.