발표에서 확인된 핵심 사실
ChatGPT나 Claude가 작성한 코드를 복사해 터미널에 붙여넣고, 에러가 나면 다시 질문하는 반복 작업은 개발자의 일상이다. 이러한 수동 루프를 제거하고 코딩 전 과정을 자동화하기 위해 Ornith-1.0 시리즈가 공개됐다.
모델 제품군은 9B-Dense, 31B-Dense, 35B-MoE, 397B-MoE 등 네 가지의 다양한 크기로 구성된다. 특히 MoE(혼합 전문가 모델, Mixture of Experts) 방식은 모델이 가진 모든 파라미터를 일괄적으로 사용하지 않는다. 수행해야 할 작업 성격에 맞춰 필요한 일부 전문가 네트워크만 선택적으로 활성화해 연산 효율을 극대화했다. 이는 하드웨어 자원 소모를 최소화하면서도 복잡한 작업에서 고성능 추론을 가능하게 하는 핵심 설계다.
실제 배포를 위해서는 최신 런타임 환경을 구축해야 한다. 구체적으로 Transformers 5.8.1, vLLM 0.19.1, SGLang 0.5.9 이상의 버전이 필수적으로 요구된다. 이 모델은 추론 과정에서 생성되는 reasoning_content 필드를 지원한다. 또한 OpenAI 스타일의 tool_calls 기능을 제공한다. 이를 통해 개발자는 기존에 구축된 에이전트 워크플로우에 모델을 쉽게 통합하고 즉시 서비스에 적용할 수 있는 기술적 호환성을 확보하게 된다.
기술이 실제로 작동하는 방식
터미널 조작 능력을 측정하는 Terminal-Bench 2.1에서 64.2점이라는 수치가 기록됐다. 경쟁 모델인 Qwen 3.5-35B는 41.4점, Gemma 4-31B는 42.1점을 기록한 수치다. 실제 깃허브 이슈 해결 능력을 평가하는 SWE-bench Verified에서도 75.6점을 기록해 Qwen 3.5-35B의 70점을 상회했다. 자연어 요구사항을 저장소 코드로 변환하는 NL2Repo 벤치마크에서는 34.6점을 기록하며 Qwen 3.5-35B의 20.5점과 큰 격차를 벌렸다. Ornith-1.0-35B 모델이 기존 기반 모델들의 성능을 크게 앞지른 결과다.
이러한 성능은 Google의 Gemma 4와 Qwen 3.5를 기반으로 한 사후 학습에서 기인한다. RL(Reinforcement Learning, 강화 학습)을 활용한 자체 개선 훈련 프레임워크를 적용했다. 모델은 단순히 정답 솔루션을 생성하는 법만 배우지 않는다. 솔루션에 도달하기 위한 스캐폴드(Scaffold, 실행 경로를 설계하는 뼈대)를 함께 학습한다. 더 효율적인 탐색 경로를 발견해 고품질의 코드를 생성하는 메커니즘을 구현했다.
확인해야 할 핵심 지점
고가의 클라우드 API 비용은 자율 코딩 에이전트를 상용 서비스에 도입하려는 기업에 가장 큰 진입장벽이다. Ornith-1.0은 MIT 라이선스를 채택해 이 비용 문제를 해결했다. 지역적 제한을 없애 전 세계 모든 개발자와 기업이 상업적 목적으로 자유롭게 이용할 수 있게 했다. 개발자는 이제 고가의 외부 API에 의존하지 않고 로컬 GPU 환경에서 자율 코딩 에이전트를 직접 구축한다. 상용 수준의 에이전트 구현 비용을 낮추는 실질적인 도구를 확보한 셈이다.
모델은 답변을 내놓기 전 `<think>` 블록을 통해 생각의 사슬(Chain-of-Thought, 단계별로 논리를 전개하는 방식)을 생성한다. 답변 출력 전 단계별 논리 전개 과정을 거치는 추론 모델로 설계되었다. 이러한 방식은 복잡한 버그 수정이나 아키텍처 설계 시 빈번하게 발생하는 논리적 비약을 줄인다. 논리 전개 과정이 정교해짐에 따라 최종 결과물의 정확도가 높아졌다. 모델이 스스로 논리를 검증하며 정답에 도달하는 경로를 최적화해 실무 적용 가능성을 확대했다.
브라우저에서 코드를 복사해 터미널에 붙여넣고 에러를 수정하던 반복 작업이 사라진다. Ornith-1.0은 정답뿐 아니라 도달 경로인 스캐폴드를 학습해 터미널 조작과 자가 수정을 스스로 수행한다. 핵심은 고가 클라우드 API 없이 단일 GPU 로컬 환경에서 상업적 수준의 자율 코딩 에이전트를 구축할 수 있느냐다. 비용 효율성이 자율 코딩 모델의 실무 도입 속도를 결정한다.




