더 깊게 생각하고 스스로 움직인다 — OpenAI, GPT-5.6 시리즈 공개

플래그십 Sol부터 저비용 Luna까지, GPT-5.6 라인업의 전략적 구성

ChatGPT가 업데이트될 때마다 코딩 능력이 얼마나 개선되었는지, 혹은 복잡한 데이터 분석의 정확도가 얼마나 높아졌는지 확인하는 과정은 이제 많은 사용자의 일상이 되었다. OpenAI는 이러한 성능 기대치와 운영 비용 사이의 간극을 해결하기 위해 최상위 모델인 Sol, 일상 업무용 Terra, 고속·저비용 모델인 Luna를 포함한 GPT-5.6 시리즈를 제한적 프리뷰로 공개했다. Terra 모델은 GPT-5.5와 경쟁 가능한 성능을 유지하면서도 비용을 2배 더 저렴하게 설계했으며, Luna 모델은 시리즈 중 가장 낮은 비용으로 강력한 기능을 제공한다. 최상위 모델인 GPT-5.6 Sol은 지금까지 도입된 가장 강력한 안전 스택(safety stack)을 탑재하여 출시되었다.

출시 과정은 미국 정부와의 긴밀한 협의를 통해 단계적으로 진행된다. OpenAI는 모델의 기능과 출시 계획을 정부에 사전 공유했으며, 정부의 요청에 따라 신뢰할 수 있는 소수 파트너 그룹에 먼저 프리뷰를 제공하고 참여 명단을 정부와 공유했다. OpenAI는 수주 간의 테스트와 조율 과정을 거친 뒤 수주 내에 GPT-5.6 Sol, Terra, Luna 모델을 일반 공개(General Availability)할 계획이다. 이는 미국 정부와 함께 사이버 행정명령 프레임워크(Cyber Executive Order framework)를 개발하고, 향후 모델 출시를 위한 반복 가능한 프로세스를 구축하기 위한 단기적 조치다.

보안 조치는 실제 환경의 공격을 방어하기 위해 다각도로 강화되었다. OpenAI는 고위험 활동, 민감한 사이버 요청, 반복적인 오용 시도에 대한 보호 기능을 강화했으며, 수주 동안 시스템의 약점을 찾고 압박 테스트를 수행하는 하드닝(hardening, 시스템 취약점을 제거해 보안을 강화하는 과정) 작업을 진행했다. 모델의 능력이 정교해질수록 공격 도구로 악용될 위험이 커지는 만큼, 정당한 코드 리뷰나 취약점 연구 등의 업무는 보장하면서 금지된 공격 행위는 더 어렵고 탐지 가능하게 만드는 데 집중했다.

max 추론과 ultra 모드가 구현한 전문 영역의 사고 깊이

단순한 모델 선택을 넘어 사용자가 AI의 사고 과정과 자원 투입량을 직접 제어할 수 있는 새로운 기능이 도입되었다. OpenAI는 GPT-5.6 Sol 모델에 `max` reasoning effort 설정을 추가하여 모델이 더 깊게 추론할 수 있도록 충분한 시간을 할당하게 했다. 이는 정밀한 결과가 필요한 복잡한 작업에서 모델이 성급하게 답을 내놓지 않고 논리적 단계를 충분히 거치도록 만드는 제어 장치다.

또한 단일 에이전트의 처리 능력을 넘어서는 복잡한 작업을 위해 `ultra` 모드를 새롭게 도입했다. `ultra` 모드는 하위 에이전트(subagents, 메인 모델의 지시를 받아 세부 작업을 나누어 수행하는 보조 AI)를 동원하여 복잡한 워크플로우의 처리 속도를 가속하는 방식이다. 메인 모델이 전체적인 계획을 수립하면 여러 하위 에이전트가 각자의 역할을 분담해 수행함으로써, 단일 모델이 모든 맥락을 처리할 때 발생하는 효율성 저하 문제를 해결했다.

이러한 구조적 변화는 전문 영역의 작업 완수 성능을 높이는 실무적 기준으로 작용한다. 사용자는 작업의 난이도에 따라 `max` 설정을 통해 추론의 깊이를 조절하거나, `ultra` 모드로 에이전트 협업 체계를 구축함으로써 투입 자원 대비 최적의 결과물을 얻을 수 있다. 이는 AI를 단순한 채팅 도구가 아니라, 정밀하게 제어 가능한 엔지니어링 툴체인으로 활용할 수 있는 기반이 된다.

벤치마크로 입증된 토큰 효율성과 도메인별 성능 도약

전문 영역의 벤치마크 결과는 추론 능력의 향상이 실제 토큰 사용량 감소와 성능 최적화로 이어짐을 보여준다. GPT-5.6 Sol은 계획, 반복, 도구 조율이 필요한 커맨드라인 워크플로우 테스트인 Terminal-Bench 2.1에서 SOTA(State-of-the-Art, 현재 최고 수준)를 달성했다. 이는 단순한 코드 생성을 넘어 터미널 환경에서 도구를 직접 다루고 실행하는 능력이 비약적으로 향상되었음을 의미한다.

생물학 분야에서도 유전체학 및 정량 생물학 분석을 평가하는 GeneBench v1에서 GPT-5.6 Sol은 GPT-5.5보다 적은 토큰을 사용하면서도 더 강력한 성능을 기록했다. 긴 호흡의 분석이 필요한 유전체 분석 작업에서 추론 효율성을 높여 자원 소모는 줄이고 정답률은 올린 결과다. 이는 전문 도메인에서 모델의 사고 시간을 최적화함으로써 운영 비용을 낮추면서도 작업의 정확도를 높일 수 있음을 입증한다.

사이버 보안 영역에서는 토큰 효율성과 성능의 균형이 극대화되었다. 취약점 연구와 공격 코드 생성을 평가하는 ExploitBench²에서 GPT-5.6 Sol은 Mythos Preview와 경쟁 가능한 성능을 보였으며, 이때 사용한 출력 토큰량은 약 1/3 수준에 불과했다. 또한 UC 버클리 연구진과 협력해 만든 ExploitGym 벤치마크에서는 Sol, Terra, Luna 모든 모델이 추론 강도를 높일수록 사이버 보안 능력이 함께 향상되는 결과를 보였다. 결과적으로 전문 실무자는 토큰 사용량을 줄이면서도 작업 완수 성능을 높이는 실무적 기준을 확보하게 되었다.

실시간 분류기와 계정 리뷰를 결합한 다층 방어 체계

강력해진 성능에 대응하여 OpenAI는 입력부터 출력, 계정 이력까지 감시하는 레이어드 세이프가드(Layered Safeguards, 다층 방어 체계)를 구축했다. 모델 수준에서는 금지된 사이버 지원 요청을 거부하고 탈옥(Jailbreak, 모델의 제한 설정을 우회하는 공격) 시도를 차단하도록 학습시켰다. 여기에 실시간 사이버 및 생물학 오용 분류기를 추가하여, 생성 중인 출력물에서 고위험 사례가 탐지되면 즉시 생성을 일시 중단한다. 이때 더 큰 규모의 추론 모델이 대화의 전체 맥락을 재검토하여 허용되지 않은 출력으로 판단되면 사용자에게 전달되기 전에 내용을 차단한다.

단일 대화의 내용을 넘어 사용자의 행동 패턴을 분석하는 계정 레벨 리뷰 시스템도 도입되었다. 보안 연구와 악의적 공격은 사용하는 기술적 개념이 유사하여 단일 요청만으로는 구분하기 어렵기 때문이다. OpenAI는 여러 대화에 걸쳐 나타나는 위험 신호를 분석하여 단순한 보안 연구인지 지속적인 공격 시도인지를 판별함으로써, 정당한 방어적 보안 업무는 보장하고 악의적 오용은 효과적으로 차단한다.

실제 위험 수치를 측정하는 Preparedness Framework(준비도 프레임워크) 평가에서도 안전성이 확인되었다. Chromium과 Firefox 브라우저 테스트에서 GPT-5.6 Sol은 버그와 익스플로잇 프리미티브(exploit primitives, 공격의 기본 구성 요소)를 식별했으나, 자율적으로 완전한 공격 체인(full-chain exploit)을 생성하지는 못해 Cyber Critical 임계값을 넘지 않았다. 결과적으로 GPT-5.6 Sol은 엔드 투 엔드 공격을 수행하는 능력보다 취약점을 찾아내고 패치를 개발하는 방어적 보안 업무(Defensive work)에서 더 높은 실무적 이득을 제공하도록 설계되었다.