H100 한 장으로 돌리는 코딩 에이전트, Cohere 'North Mini Code' 공개

발표에서 확인된 핵심 사실

불과 얼마 전까지만 해도 고성능 AI 모델을 돌리려면 수십 대의 서버가 필요했지만, 이제는 개인용 장비 수준으로 요구 사양이 낮아지는 속도가 매우 빠르다. 이런 흐름 속에서 Cohere가 소프트웨어 엔지니어링 작업을 스스로 수행하는 오픈소스 코딩 에이전트 모델 North Mini Code를 공개했다. 단순히 코드 한 줄을 추천하는 수준을 넘어 전체적인 개발 공정을 관리하는 에이전트 기반 설계가 핵심이다. 이 모델은 고성능 연산 장치인 H100 GPU 한 장만으로도 충분히 구동할 수 있으며, Hugging Face에서 Apache 2.0 라이선스로 제공된다. 누구나 모델을 내려받아 자신의 목적에 맞게 수정하고 상업적으로 이용할 수 있는 개방적인 구조다.

실제 구동 환경은 예상보다 더 가볍다. Cohere의 공동 창업자인 닉 프로스트는 MLX(애플 실리콘 칩에 최적화된 머신러닝 프레임워크)를 활용해 약 20GB의 램을 갖춘 Mac Studio에서 모델이 작동하는 모습을 직접 시연했다. 수억 원대 서버 장비가 없어도 적절한 사양의 개인 컴퓨터만 있다면 코딩 AI를 내 로컬 환경에 올릴 수 있다는 뜻이다. 하드웨어 진입 장벽이 낮아지면서 모델을 직접 제어하려는 시도가 더 쉬워졌다.

그동안 개발자들은 매달 구독료를 내는 유료 서비스나 클라우드 API에 의존해 왔다. 하지만 이번 공개로 클라우드 비용 부담을 덜고 내부 코드 유출 걱정 없이 보안이 유지되는 로컬 구축이라는 실질적인 선택지를 갖게 됐다. 외부 서버에 데이터를 보내지 않고도 내 컴퓨터 안에서 코딩 에이전트를 운용하는 방식이 현실적인 대안으로 부상했다.

300억 개의 파라미터를 가진

매달 지불하는 구독료 뒤에는 우리가 보지 못하는 연산 비용이 숨어 있다. North Mini Code는 300억 개의 파라미터(모델의 지능을 결정하는 매개변수)를 가진 모델로, 전체 규모는 크지만 실제 작동할 때는 토큰당 30억 개의 파라미터만 골라 사용한다. 이를 MoE(Mixture-of-Experts, 특정 상황에 맞는 전문가 모델만 선별해 가동하는 구조)라고 부른다. 256,000 토큰의 컨텍스트 윈도우(모델이 한 번에 기억하고 처리할 수 있는 정보의 양)를 지원하며, 한 번에 최대 64,000 토큰까지 생성할 수 있어 긴 코드를 다루는 데 유리하다.

동일한 하드웨어 환경에서 테스트했을 때 이 모델은 Mistral Devstral Small 2보다 높은 효율을 보였다. Cohere(코히어, 기업용 AI 모델 개발사)가 공개한 내부 측정 결과에 따르면, 출력 처리량은 2.8배 더 많고 토큰 사이의 지연 시간은 30% 더 짧다. 클라우드 API를 빌려 쓰는 대신 로컬 서버에 직접 모델을 구축하면, 데이터 보안을 지키면서도 이러한 성능 이점을 누릴 수 있다.

높은 출력 토큰 생성량(Verbosity)이 추론 비용과 지연

개발자가 코드 생성 모델을 도입할 때 가장 먼저 확인하는 것은 응답의 정확도지만, 실제 운영 환경에서는 응답이 얼마나 긴지가 비용을 결정합니다. Artificial Analysis의 독립 테스트 결과, North Mini Code는 비교 가능한 다른 모델들보다 3배 더 많은 출력 토큰을 생성합니다. 토큰은 AI가 글자를 처리하는 최소 단위로, 생성량이 많을수록 서버가 일을 더 많이 해야 하므로 대규모 프로덕션 워크로드에서 추론 비용과 지연 시간을 가중시키는 원인이 됩니다.

Cohere는 이러한 성능을 확보하기 위해 약 5,000개 저장소의 70,000개 이상 검증 가능한 태스크를 활용했습니다. 모델은 지도 미세 조정(SFT, 정답이 포함된 데이터를 학습시키는 방식)과 강화 학습(RL, 보상을 통해 결과의 질을 높이는 방식)을 거치며 학습되었습니다. 또한 SWE-Agent(소프트웨어 엔지니어링 작업을 자동화하는 도구), Mini-SWE-Agent, OpenCode라는 세 가지 스캐폴드(모델이 작업을 수행할 수 있도록 돕는 구조화된 환경)에서 훈련되어 실전 환경에서의 견고함을 높였습니다.

128개의 전문가 모델 중 필요한 8개만 골라 쓰는 이 효율적인 구조는, 거대한 클라우드 인프라 없이도 고성능 코딩 에이전트를 내 손안에 둘 수 있음을 증명한다. 매달 나가는 API 구독료와 외부로 유출될지 모를 데이터 보안 사이에서 고민하던 개발자들에게, 이제 로컬 서버 구축은 비용을 절감하면서도 성능을 온전히 통제할 수 있는 가장 확실한 선택지가 되었다. 결국 AI 코딩의 주도권은 빌려 쓰는 환경에서 직접 운용하는 환경으로 빠르게 이동하고 있다.

H100 한 장으로 돌리는 코딩 에이전트, Cohere 'North Mini Code' 공개

발표에서 확인된 핵심 사실

300억 개의 파라미터를 가진

높은 출력 토큰 생성량(Verbosity)이 추론 비용과 지연

관련 기사