자가 발전형 학습을 도입한 코딩 에이전트 모델
챗GPT나 클로드에서 생성한 코드 스니펫을 복사해 붙여넣는 방식은 이제 개발자의 일상적인 습관이 됐다. DeepReinforce-AI는 이러한 단순 생성을 넘어 스스로 문제를 해결하는 에이전틱 코딩에 최적화된 Ornith-1.0을 공개했다. 이 모델은 단순히 정답 코드를 내놓는 것이 아니라 스스로 계획을 세우고 필요한 도구를 사용하는 능력을 갖췄다. 특히 스스로 성능을 개선하는 자가 발전형 학습 프레임워크를 도입해 오픈소스 진영의 코딩 성능을 한 단계 끌어올렸으며, MIT 라이선스를 채택해 지역적 제한 없이 전 세계 누구나 무료로 사용할 수 있다.
모델 제품군은 개발 환경에 따라 최적의 선택지를 가질 수 있도록 다양한 파라미터 규모로 구성됐다. 가장 가벼운 9B-Dense 모델부터 31B-Dense, 그리고 효율성을 극대화한 35B-MoE(Mixture of Experts, 모델의 일부 파라미터만 활성화해 연산 효율을 높이는 구조)와 397B-MoE 모델이 준비됐다. 이 모델들은 Google의 Gemma 4와 Qwen 3.5를 기반으로 추가 학습을 거쳐 완성됐다. 하드웨어 자원과 요구 성능에 따라 모델 규모를 선택해 에이전틱 코딩 환경을 구축할 수 있다.
기술이 실제로 작동하는 방식
ChatGPT나 Claude가 생성한 코드 스니펫을 복사해 붙여넣던 개발자의 일상적인 경험이 달라진다. Terminal-Bench 2.1(터미널 환경 코딩 능력 측정 지표)에서 Ornith-1.0-9B 모델은 43.1점을 기록했다. 이는 동일 체급인 Qwen3.5-9B의 21.3점과 Gemma4-12B의 21점을 두 배 가까이 앞선 수치다. 실제 소프트웨어 엔지니어링 과제를 해결하는 SWE-bench Verified에서도 69.4점을 기록하며 9B 모델임에도 35B 규모 모델들과 대등하거나 더 나은 성능을 보였다. 체급을 뛰어넘는 효율성을 수치로 증명한 셈이다.
RL(Reinforcement Learning, 강화학습)을 활용해 정답에 도달하는 경로인 스캐폴드(Scaffold, 추론 과정을 이끄는 뼈대 구조)를 최적화했다. 단순히 정답 코드를 생성하는 법을 배우는 것이 아니라 솔루션 도출 과정과 그 과정을 이끄는 구조를 동시에 학습한다. 모델이 더 효율적인 탐색 경로를 스스로 발견하게 함으로써 결과적으로 더 높은 품질의 결과물을 생성한다. 정답이라는 결과값보다 정답에 이르는 논리적 경로를 강화하는 데 집중한 설계다.
생각의 사슬(Chain-of-Thought, 단계별 추론 과정) 구조를 통해 AI가 어떤 논리로 코드를 작성했는지 투명하게 확인할 수 있다. 모델은 기본적으로 `<think>` 블록 내에서 내부적인 추론을 수행한 뒤 최종 답변을 내놓는 구조를 가진다. 개발자는 이 과정을 통해 AI의 사고 흐름을 직접 추적할 수 있다. 이는 복잡한 버그 수정이나 아키텍처 설계 시 논리적 오류를 줄이는 데 결정적인 역할을 한다.
ChatGPT나 Claude를 이용해 코드 스니펫을 복사하고 붙여넣던 일상적인 개발 경험이 바뀐다. Ornith-1.0-9B는 Terminal-Bench 2.1에서 43.1점을 기록하며 동일 체급 모델들을 두 배 가까이 앞질렀다. 정답 코드뿐 아니라 정답에 도달하는 경로인 스캐폴드를 강화학습으로 최적화한 구조 덕분이다.
이제 단일 80GB GPU 환경에서 19GB 메모리만으로 거대 모델 수준의 코딩 에이전트를 서빙할 수 있는지가 실제 도입의 핵심 판단 기준이 된다. 모델의 크기가 아니라 최적화된 경로의 정밀함이 코딩 AI의 실효성을 결정한다.



