ChatGPT, 대화 맥락 파악 능력 강화로 안전성 39% 높였다

39%. 이는 OpenAI가 최신 모델인 GPT-5.5 Instant에서 자살 및 자해 관련 위험 상황을 감지하고 안전하게 대응하는 능력이 이전 대비 얼마나 향상되었는지를 보여주는 수치다. 단순히 한 문장의 의미를 해석하는 것을 넘어, 대화가 이어지는 동안 드러나는 미묘한 징후들을 종합적으로 판단하게 된 결과다. 쉽게 말하면, 이전의 인공지능이 단어의 사전적 의미만 보고 판단했다면 이제는 대화의 흐름이라는 맥락을 읽고 숨겨진 위험 신호를 포착하는 셈이다. 그런데 이러한 변화는 단순히 기술적인 성능 향상을 넘어, 사용자가 겪는 심리적 위기 상황에서 인공지능이 어떻게 더 안전한 조력자가 될 수 있는지를 보여주는 중요한 이정표다.

대화의 흐름을 읽는 안전 요약 기술

OpenAI는 이번 업데이트를 통해 안전 요약(Safety Summaries)이라는 새로운 시스템을 도입했다. 이는 대화 중에 발생하는 위험 신호를 짧고 사실적인 메모 형태로 기록해 두었다가, 필요할 때 모델이 이를 참고하게 만드는 기술이다. 비유하자면, 상담사가 내담자와의 이전 상담 내용을 간단히 요약해 두었다가 다음 상담에서 더 깊이 있는 조언을 건네는 과정과 비슷하다. 이 요약은 일반적인 개인화나 장기 기억을 위한 것이 아니라, 오직 심각한 안전 문제가 발생했을 때만 제한적으로 활용된다. 모델은 이 요약을 바탕으로 대화의 맥락을 파악하고, 위험이 감지되면 대화의 수위를 낮추거나 유해한 정보를 거부하며, 필요시 안전한 지원 기관으로 사용자를 안내한다.

상황별 안전 대응 성능의 비약적 향상

이번 업데이트는 자살, 자해, 타인에 대한 위해 등 급박한 상황에 초점을 맞췄다. 연구팀은 정신 건강 전문가들과 협력하여 모델의 정책과 학습 방식을 개선했다. 그 결과, 단일 대화 내에서 위험이 점진적으로 드러나는 경우 모델의 대응 능력이 크게 향상되었다. 구체적인 수치를 보면, 자살 및 자해 사례에서 안전한 응답 성능이 50% 개선되었고, 타인에게 위해를 가할 가능성이 있는 사례에서도 16%의 성능 향상을 기록했다. 특히 GPT-5.5 Instant(현재 ChatGPT의 기본 모델)를 기준으로 다중 대화에 걸쳐 위험 신호를 추적했을 때, 타인 위해 사례는 52%, 자살 및 자해 사례는 39%의 성능 개선을 보였다.

전문가 협업을 통한 안전성 검증

예전에는 인공지능이 단편적인 질문에만 반응했다면, 이제는 대화의 맥락을 연결해 더 큰 그림을 본다. OpenAI는 이를 위해 정신과 의사와 심리학자들로 구성된 글로벌 피지션 네트워크(Global Physicians Network, 정신 건강 및 법의학 심리학 전문가 그룹)와 협력했다. 이들은 어떤 상황에서 안전 요약을 생성할지, 이전 대화의 어느 범위까지 참고할지 등을 결정하는 데 핵심적인 역할을 했다. 실제로 4,000건 이상의 평가에서 안전 요약 기능은 5점 만점에 4.93점이라는 높은 안전 관련성 점수를 기록하며, 모델이 일반적인 대화의 품질을 저해하지 않으면서도 위험 상황에서만 정밀하게 작동함을 입증했다.

기술의 발전은 결국 사용자가 가장 취약한 순간에 인공지능이 어떤 태도를 취하느냐에 따라 그 가치가 결정된다.

ChatGPT, 대화 맥락 파악 능력 강화로 안전성 39% 높였다

대화의 흐름을 읽는 안전 요약 기술

상황별 안전 대응 성능의 비약적 향상

전문가 협업을 통한 안전성 검증

관련 기사