Sol, Terra, Luna로 구성된 GPT-5.6 모델 시리즈

기업 개발팀은 모델의 성능과 운영 비용 사이의 트레이드오프를 해결해야 하는 과제에 직면해 있다. 모든 작업에 최고 사양 모델을 투입하면 예산 소진이 빠르고, 경량 모델만으로는 복잡한 기업용 워크플로우를 완결 지을 수 없기 때문이다. OpenAI는 이를 해결하기 위해 계층화된 GPT-5.6 모델 시리즈인 Sol, Terra, Luna를 공개했다.

이 시리즈는 작업의 난이도와 요구 정밀도에 따라 적절한 모델을 선택 배치하는 계층 구조를 통해 연산 효율을 극대화했다. 현재 이 모델들은 API와 Codex를 통해 선정된 프리뷰 파트너에게만 제한적으로 제공되어 실제 워크플로우 적용 가능성을 타진하고 있다.

모델 접근 권한을 얻은 곳은 전 세계 약 20개 조직으로 제한적이다. 이는 도널드 J. 트럼프 대통령이 2026년 6월 2일에 발표한 행정 명령에 따른 조치다. 해당 명령에 따라 미국 연방 기관들은 새로운 AI 모델의 시장 출시 전 안전성을 평가하는 벤치마킹 절차를 수행하고 있으며, OpenAI는 소수 파트너 그룹을 통한 초기 프리뷰로 국가 차원의 안전성 검증 과정에 협조하고 있다.

추론 시간 확장 및 '울트라 모드'를 통한 서브에이전트 협업

특히 최상위 모델인 Sol은 추론 능력의 비약적 향상을 통해 복잡한 문제 해결 능력을 강화했다. Sol 모델에 도입된 '최대 추론 노력(max reasoning effort)' 모드는 매우 복잡한 문제에 대해 더 깊게 추론할 수 있도록 명시적으로 확장된 시간을 부여한다. '울트라 모드'는 여기서 더 나아가 전문화된 서브에이전트를 배치해 다단계로 구성된 장기 프로젝트를 분할 처리함으로써 전체 프로젝트의 처리 속도를 높였다. 이는 단순한 텍스트 생성을 넘어 복잡한 워크플로우를 관리하는 에이전트 시스템을 구축한 것이다.

실제 벤치마크 수치는 이러한 협업 구조의 효율을 증명한다. Terminal-Bench 2.1 테스트에서 Sol (Ultra)는 91.91%를 기록해 Claude Mythos 5의 88%를 앞섰다. Agent's Last Exam의 코드 모드 테스트에서는 50.9%의 성공률을 기록하며, 해당 테스트에서 50%라는 성공 임계값을 넘긴 유일한 모델이 됐다. 전문 서브에이전트를 활용한 분할 처리 방식이 고난도 코드 구현과 실행에서 실질적인 성능 우위를 만들었다.

용도와 비용에 따라 세분화된 모델별 가격 체계

이러한 성능 차이는 모델별로 차등 적용된 가격 체계로 이어진다. Sol은 입력 100만 토큰당 5달러, 출력 100만 토큰당 30달러의 가격을 가진 최상위 옵션으로, 복잡한 추론이나 높은 보안 수준이 요구되는 애플리케이션에 최적화했다. Terra는 입력 2.50달러, 출력 15달러로 대규모 생산 환경 운용에 적합한 성능과 효율의 균형을 맞췄다. Luna는 입력 1달러, 출력 6달러로 빠른 속도가 필요한 일상적 사용에 최적화한 가장 가벼운 옵션이다.

OpenAI는 nano나 mini 같은 크기 기반 명칭을 폐지하고 Sol, Terra, Luna라는 이름을 도입했다. 이 모델들은 물리적인 크기나 원시적인 지능 수준의 차이보다, 각각 서로 다른 구체적 사용 사례를 해결하도록 설계됐다. 즉, 지능 수준이 아닌 구체적인 사용 목적에 따라 모델을 선택하도록 설계한 것이다.

단일 모델의 지능보다 에이전트 루프의 운영 효율이 핵심 지표가 됐다. 울트라 모드의 서브에이전트들이 일으키는 예측 불가능한 비용은 새로운 캐싱 프로토콜로 제어해야 한다.

최적의 모델 선택 기준은 지능 수준이 아닌 과업별 비용 대비 편익이다. 캐싱 설정을 통한 비용 통제력이 에이전트 기반 자동화의 실질적 도입 여부를 결정한다.