AI 모델 6개 중 4개가 경제적 축에서 좌편향 성향 기록

사용자는 AI와 대화를 나누는 과정에서 답변이 특정 정치적 성향을 띠고 있다는 경험을 한다. 분석팀은 이러한 체감 편향성을 정량적으로 측정하기 위해 6개의 주요 AI 모델을 대상으로 정치적 좌표 측정 테스트를 수행했다. 측정 결과 6개 모델 중 4개가 경제적 축의 중심에서 왼쪽으로 치우친 성향을 보였다.

분석 도구는 정치적 편향성을 측정하기 위해 경제적 축과 사회적 축이라는 두 가지 좌표계를 사용한다. 경제적 축은 왼쪽에서 오른쪽으로 이어지는 경제적 성향의 스펙트럼을 측정하며, 사회적 축은 개인의 자유를 우선하는 자유지상주의부터 국가의 통제를 강조하는 권위주의까지의 범위를 설정한다. 각 모델의 응답 분포는 단일 지점이 아니라 여러 번의 실행 결과를 모은 '구름(cloud)' 형태로 시각화된다. 이 구름이 좌표계의 중앙에 가까울수록 해당 모델은 정치적으로 중립적인 성향을 띤다.

분석팀은 모델의 실제 성향과 모델이 스스로 주장하는 성향의 차이를 구분하여 표시했다. 모델이 스스로 어느 방향으로 기울어 있다고 답변한 지점은 '빈 마커(hollow mark)'로 표시하고, 실제 경제적 축에서 측정된 지점은 '채워진 마커(solid mark)'로 구분했다. 만약 모델이 자신의 성향에 대한 답변을 회피할 경우 해당 모델은 중립성을 주장한 것으로 점수화했다. 이러한 시각화 방식은 모델의 자기 인식과 실제 출력값 사이의 간극을 명확히 드러낸다.

웹 검색을 차단한 'Condition A' 환경으로 내재적 편향성 추출

분석팀은 모델 자체의 내재적 편향성을 측정하기 위해 웹 검색 기능을 비활성화한 'Condition A' 환경을 구축했다. 웹 검색을 끈 상태에서 동일한 질문을 반복 수행함으로써 온라인상의 실시간 정보와 독립된 모델 내부의 파라미터 성향을 추출했다. 이때 시스템 프롬프트(System Prompt)를 전혀 사용하지 않은 순수 상태의 모델을 대상으로 테스트를 진행했다.

측정 과정에는 공개된 '오픈 질문 뱅크(open question bank)'가 활용되었다. 분석팀은 모든 모델에 동일한 질문 세트를 여러 번 반복해서 던졌으며, 각 질문 항목을 사실 기반(factual)과 가치 기반(values-based)으로 태그하여 구분했다. 모델이 답변을 거부한 횟수 또한 데이터로 산입하여 분석의 정밀도를 높였다. 모든 데이터는 버전별로 스탬프를 찍어 다운로드 가능한 형태로 공개했다.

응답의 좌표를 산출하기 위해 분석팀은 저비용의 중립 분류 모델(neutral classifier)을 투입했다. 분류 모델은 AI 모델이 생성한 원문 답변에서 정치적 입장, 확정적 답변을 피하는 회피(hedging) 성향, 거부 유형, 그리고 감정이 실린 편향된 언어(loaded language)를 읽어내어 분석했다. 최종 좌표는 95% 신뢰 구간을 가진 가중 평균값으로 계산되어 수치화되었다. 원문 답변은 영구적으로 저장되어 언제든 마커를 재계산할 수 있는 구조를 갖췄다.

보더 테스트를 통한 리스크 관리와 서비스 타겟 정렬 기준

분석팀은 내재적 편향성과 외부 데이터의 영향력을 분리하기 위해 '보더 테스트(Border Test)'를 별도로 수행했다. 보더 테스트는 의도적으로 규모를 작게 설정한 상태에서 웹 검색 기능을 활성화하여 진행했다. 검색 결과가 사용자의 물리적 위치(location)에 따라 답변 내용을 어떻게 변화시키는지 분석하여, 검색 기능이 모델의 내재적 성향을 어느 정도 이동시키는지 측정했다.

이러한 정치적 좌표 데이터는 AI 모델을 도입하려는 기업의 리스크 관리 기준으로 활용된다. 기업은 도입하려는 모델의 응답 구름이 특정 방향으로 좁게 형성되어 있는지, 혹은 넓게 퍼져 변동성이 큰지를 확인한다. 이를 통해 모델의 내재적 편향성이 서비스의 주 타겟 사용자가 가진 정치적 성향과 충돌하여 거부감을 일으킬 가능성을 사전에 판단한다. 모델의 성향과 고객의 가치관이 일치하지 않을 경우 AI는 도구가 아닌 비즈니스 리스크가 되기 때문이다.

분석 결과의 제시 방식은 특정 가치관을 강요하지 않는 기술적 기술(descriptive) 방식을 채택했다. 분석팀은 미국 정치의 상징인 빨간색과 파란색 팔레트를 의도적으로 배제하여 특정 진영의 우위를 암시하지 않았다. 또한 모델 간의 일대일 비교 기능을 통해 두 모델 사이의 캐릭터 차이(character delta)와 의견 불일치 지점을 정밀하게 추적할 수 있도록 설계했다. 결과적으로 기업은 성능 지표를 넘어 '정렬(alignment)' 관점에서 모델 선택의 기준을 세울 수 있게 되었다.