최근 뉴스에서 접하는 안타까운 사건들은 디지털 공간에서의 대화가 현실의 위협으로 얼마나 빠르게 번질 수 있는지를 실감하게 한다. 사용자가 ChatGPT를 이용할 때도 사회적 이슈를 이해하거나 감정을 표출하는 과정에서 폭력적인 주제가 언급되곤 한다. 이때 인공지능이 단순히 정보를 전달하는 역할을 넘어, 대화의 맥락을 파악하고 위험한 상황을 사전에 차단하는 것이 기술 기업의 핵심 과제로 떠올랐다. OpenAI는 최근 자사 서비스가 폭력이나 실질적인 해를 끼치는 도구로 악용되지 않도록 설계된 안전 체계와 대응 원칙을 상세히 공개했다.

안전한 모델 운영을 위한 기술적 접근과 모델 사양

OpenAI는 모델이 폭력을 조장하거나 구체적인 실행 계획을 세우는 요청을 거부하도록 학습시키고 있다. 여기서 핵심은 Model Spec이라 불리는 모델 사양 문서인데, 이는 인공지능이 어떤 상황에서 도움을 주고 어디까지 선을 그어야 하는지에 대한 원칙을 담고 있다. 예를 들어, 사용자가 역사적 사실이나 교육적 목적으로 폭력에 대해 질문할 때는 답변을 허용하되, 범죄를 실행하기 위한 구체적인 전술이나 지침은 철저히 배제하는 방식이다. 이처럼 무해한 대화와 위험한 행동을 구분하기 위해 심리학자, 정신과 의사, 시민 자유 전문가 등 다양한 분야의 전문가들과 협력하여 안전 경계를 지속적으로 조정하고 있다.

맥락 파악 능력 강화와 자동화된 위험 탐지

예전에는 단일 메시지의 위험성만을 판단했다면, 이제는 긴 대화 흐름 속에서 나타나는 미묘한 징후까지 포착하는 방향으로 진화했다. 하나의 메시지는 평범해 보일지라도, 여러 대화에 걸쳐 나타나는 패턴을 분석하면 위험한 의도를 읽어낼 수 있기 때문이다. 이를 위해 OpenAI는 모델 학습, 평가, 그리고 레드 티밍(Red Teaming, 인공지능의 취약점을 찾기 위해 의도적으로 공격을 시도하는 테스트)을 통해 시스템의 감지 능력을 고도화했다. 또한 사용자가 정신적 고통을 겪거나 자해 위험이 감지될 경우, 인공지능은 대화를 진정시키고 지역별 위기 상담 리소스나 전문가의 도움을 받을 수 있도록 안내하는 역할을 수행한다.

정책 위반 시 즉각적인 서비스 접근 차단

개발자가 바로 체감하는 변화는 정책 위반에 대한 엄격한 대응 체계다. OpenAI는 분류기(데이터의 성격을 자동으로 분류하는 도구), 추론 모델(복잡한 논리를 파악하는 인공지능), 해시 매칭(특정 파일이나 텍스트의 고유값을 비교하는 기술) 등 다양한 자동화 시스템을 활용해 위험한 활동을 상시 모니터링한다. 시스템이 정책 위반 가능성을 포착하면, 훈련된 인간 검토자가 대화의 맥락을 직접 평가한다. 이때 검토자는 보안이 유지되는 환경에서 엄격한 데이터 보호 규정에 따라 활동하며, 해당 행위가 단순한 호기심인지 실제 폭력으로 이어질 위험이 있는지 판단한다. 만약 폭력 조장이나 위협 등 명백한 정책 위반이 확인되면, 해당 계정은 즉시 서비스 접근이 차단되며 재가입을 방지하기 위한 조치도 함께 이루어진다.

기술의 안전은 단순히 기능을 제한하는 것이 아니라, 사용자가 인공지능을 올바르게 활용할 수 있도록 보이지 않는 곳에서 정교한 판단 기준을 세우는 과정이다.