최근 선거철마다 쏟아지는 여론조사 결과가 과연 실제 민심을 얼마나 정확히 반영하는지 의문이 드는 순간이 있다. 이번 주 개발자 커뮤니티에는 실제 사람 대신 인공지능에게 투표권을 부여해 2026년 지방선거 결과를 예측해 본 실험이 올라와 눈길을 끌었다. Athena(가상 유권자 페르소나를 생성해 시뮬레이션을 수행하는 도구)를 활용해 5천 명의 가상 한국인 유권자를 만들고, 이들이 시도지사 선거에서 어떤 선택을 내리는지 확인하는 과정이다.
5,100명의 가상 유권자와 4,800표의 시뮬레이션 데이터
연구팀은 중앙선거관리위원회(NEC)에서 확보한 후보자 데이터 8,300명을 기반으로 시뮬레이션을 설계했다. 각 시도별로 300명씩 총 5,100명의 페르소나(특정 성향과 직업을 가진 가상의 인물)를 샘플링했다. 투표 엔진으로는 Gemma 4 e4b(구글에서 개발한 경량화된 오픈 모델)를 사용했으며, RTX 5060(엔비디아의 소비자용 그래픽 카드) 환경에서 약 3시간 동안 4,800표의 투표 데이터를 생성했다. 이 과정에서 각 페르소나는 후보자의 이력과 자신의 직업적 배경을 대조하여 투표를 결정하도록 설정되었다.
직업 라벨에 따른 쏠림 현상과 현직 프리미엄
예전에는 인공지능이 후보자의 정책을 종합적으로 분석할 것이라 기대했지만, 실제 결과는 단순한 키워드 매칭에 가까웠다. 대구시장 선거 시뮬레이션에서 김한구 무소속 후보가 90.5%라는 압도적인 득표율을 기록한 반면, 4선 의원 출신인 김부겸 전 국무총리는 1.4%를 얻는 데 그쳤다. 이는 AI가 후보자의 정치적 경력보다 페르소나의 노동자 라벨과 후보자의 직업 키워드를 단순하게 연결했기 때문이다. 또한 강원도의 김진태 후보가 100%, 경북의 이철우 후보가 99%의 득표율을 보이는 등 현직 프리미엄이 지나치게 과대평가되는 경향이 뚜렷하게 나타났다. 특히 후보 정보가 부실한 지역에서는 AI 유권자들이 판단을 유보하며 인천 93%, 충북 73%라는 높은 기권율을 보였다.
여론조사 대체재로서의 한계와 정량적 확인
결과적으로 이번 실험은 미국에서 진행된 LLM-as-voter(언어 모델을 유권자로 활용하는 연구) 방식이 한국의 복잡한 정치 지형에 그대로 적용되기 어렵다는 점을 정량적으로 증명했다. AI는 데이터의 맥락을 이해하기보다 입력된 라벨의 유사성에 의존하는 경향이 강해, 실제 유권자의 복합적인 심리를 담아내지 못했다. 이번 시뮬레이션은 AI가 여론조사를 대체할 수 있는 도구가 아니라, 데이터의 편향성을 확인하는 실험적 도구에 머물러 있음을 보여준다.



