Anthropic, 클로드 선거 중립성 96% 달성…미드텀 앞두고 안전장치 강화

매일 아침 클로드에게 "이번 선거에서 누구에게 투표해야 할까"라고 묻는 사람이 있다. Anthropic(인공지능 연구 기업)은 이런 질문에 모델이 특정 후보를 밀어주지 않고 균형 잡힌 정보를 제공해야 한다는 원칙을 세웠다. 이번 주 공개된 선거 안전장치 업데이트는 그 원칙이 실제로 얼마나 작동하는지 수치로 보여준다.

좌우 진영의 의견을 표현한 프롬프트에 모델이 얼마나 일관되고 깊이 있게 응답하는지 측정한 결과가 나왔다. 예를 들어 한쪽 입장에는 장문의 답변을, 반대쪽에는 한 줄만 쓰는 경우 낮은 점수를 받는다. 최신 모델인 Opus 4.7과 Sonnet 4.6은 각각 95%와 96%를 기록했다. 평가 방법론과 오픈소스 데이터셋은 GitHub에 공개되어 누구나 재현하거나 개선할 수 있다.

600개의 프롬프트로 구성된 테스트에서는 선거 관련 위험을 측정했다. 300개는 유해 요청(선거 허위 정보 생성 시도), 300개는 합법 요청(캠페인 콘텐츠나 시민 참여 자료 제작)으로 구성했다. Opus 4.7은 합법 요청에 적절히 응답하고 유해 요청을 거절한 비율이 100%, Sonnet 4.6은 99.8%였다. 영향력 작전(가짜 계정이나 조작된 콘텐츠로 여론을 왜곡하려는 시도)에 대한 다중 턴 시뮬레이션 평가에서는 Sonnet 4.6이 90%, Opus 4.7이 94%의 적절 대응률을 보였다.

예전에는 선거 시즌이 다가오면 정책 문서와 수동 모니터링에 의존하는 경우가 많았다. 이제는 모델 출시 전에 자동 분류기(위반 가능성을 탐지하는 시스템)와 전담 위협 인텔리전스 팀이 상시 방어선을 운영한다. 사용량 정책(Usage Policy)은 클로드가 선거 사기, 투표 시스템 방해, 투표 과정에 대한 오정보 유포 등에 사용되는 것을 명시적으로 금지하며, 이를 위반하는 행위는 자동으로 탐지되어 차단된다.

개발자가 바로 체감하는 변화는 선거 배너 기능이다. 클로드.ai에서 유권자 등록, 투표소 위치, 선거일, 투표 용지 정보를 묻는 질문이 들어오면 클로드는 Democracy Works(비영리 단체)의 TurboVote(초당파적 투표 정보 서비스)로 연결하는 배너를 표시한다. 올해 브라질 선거에도 유사한 배너가 도입될 예정이다. 또한 웹 검색 기능을 통해 훈련 데이터의 지식 기준점(knowledge cutoff) 이후 발생한 최근 선거 관련 정보도 실시간으로 제공할 수 있다.

Mythos Preview와 Opus 4.7 출시 전에 처음으로 모델이 인간의 개입 없이 자율적으로 영향력 작전을 수행할 수 있는지 평가했다. 안전장치와 훈련이 적용된 상태에서는 거의 모든 작업을 거절했다. 반면 안전장치를 제거한 상태(모델의 원시 능력 측정 목적)에서는 Mythos Preview와 Opus 4.7만이 절반 이상의 작업을 완료했다. 연구팀은 "이 모델들이 여전히 상당한 인간의 지시가 필요하지만, 결과는 지속적인 경계의 필요성을 강조한다"고 밝혔다.

현재 Vanderbilt University(밴더빌트 대학교)의 The Future of Free Speech(독립 싱크탱크), Foundation for American Innovation, Collective Intelligence Project와 협력하여 정치적 대화를 포함한 표현의 자유에 관한 모델 행동을 광범위하게 검토 중이다. 이 평가는 지속적으로 개선될 예정이다.

클로드가 선거 정보를 제공할 때 사실을 공유하고 신뢰할 수 있는 최신 자료로 안내하는 것이 목표다.

Anthropic, 클로드 선거 중립성 96% 달성…미드텀 앞두고 안전장치 강화

관련 기사