Cohere, 터미널 제어까지 가능한 오픈소스 코딩 에이전트 공개

발표에서 확인된 핵심 사실

개발자가 AI가 짜준 코드를 복사해 터미널에 붙여넣고, 에러가 나면 다시 질문하는 반복 작업은 일상이다. Cohere와 Cohere Labs가 공개한 North Mini Code는 이 번거로운 과정을 직접 수행한다. 단순한 코드 완성을 넘어 터미널 작업과 복잡한 소프트웨어 수정 작업을 스스로 처리하는 에이전트 기반 소프트웨어 엔지니어링(스스로 계획을 세워 도구를 사용하는 방식) 특화 모델이다. 실제 개발 환경에서 도구를 직접 사용해 문제를 해결하는 능력을 갖춘 연구용 모델로 설계됐다. 코드를 생성하는 단계에서 멈추지 않고, 실행 환경인 터미널을 직접 제어하며 결과물을 만들어내는 능력을 갖췄다. 이는 AI가 단순한 조수가 아니라 스스로 작업을 완수하는 엔지니어의 역할을 수행하도록 만드는 연구의 일환이다.

모델의 가중치 값을 공개해 누구나 내려받아 사용할 수 있는 오픈 웨이츠 형태로 배포됐다. 가중치는 AI가 학습을 통해 정립한 데이터 간의 연결 강도를 수치로 나타낸 값으로, 모델이 판단을 내리는 기준이 되는 핵심 데이터다. Apache 2.0 라이선스를 적용해 기업이 상업적으로 이용하거나 필요에 따라 모델을 수정하는 일이 자유롭다. 누구나 모델을 내려받아 자신의 서버에 구축하고, 특정 개발 환경이나 사내 프로젝트의 특성에 맞게 모델을 최적화해 사용할 수 있다. 공개된 가중치를 바탕으로 모델의 내부 동작을 분석하거나 성능을 개선하는 연구 작업도 가능하다. 개발자가 모델의 내부 구조를 직접 수정하며 최적의 코딩 에이전트를 구축할 수 있는 환경이 열린 셈이다.

SWE-Bench, Terminal-Bench 등 다양한

AI가 짜준 코드를 복사해 붙여넣었는데 왜 정작 내 컴퓨터에서는 에러가 날까. 단순히 코드를 잘 쓰는 것과 실제 개발 환경에서 문제를 해결하는 능력은 완전히 다른 영역이기 때문이다.

실제 깃허브(GitHub, 개발자들의 코드 저장소)에 올라온 버그 리포트 같은 이슈들을 얼마나 잘 해결하는지 측정하는 SWE-Bench Verified와 SWE-Bench Pro에서 성능을 검증했다. 개발자가 직접 명령어를 입력해 시스템을 제어하는 터미널 환경의 능력을 평가하는 Terminal-Bench v2와 Terminal-Bench Hard에서도 강점을 보였다. 단순한 텍스트 생성을 넘어 실제 작업 환경을 직접 제어하고 수정하는 에이전트로서의 실무 능력을 입증한 셈이다.

복잡한 수식이나 논리 구조가 필요한 SciCode와 LiveCodeBench v6 테스트에서도 우수한 성적을 거뒀다. 단순한 문법 맞추기가 아니라 문제 해결을 위한 단계적 추론 능력을 확인한 결과다. 이는 대규모 프로젝트의 버그를 수정하거나 복잡한 인프라를 자동으로 구축하는 작업에서 투입 비용과 처리 속도를 가늠하는 중요한 판단 기준이 된다.

해당 기능들은 transformers(AI 모델을 쉽게 불러와 사용하는 표준 도구 모음) 라이브러리를 통해 구현할 수 있다. 개발팀은 최적의 성능을 내기 위해 생성 텍스트의 무작위성을 조절하는 temperature 값을 1.0으로, 상위 확률 누적 값 내에서 단어를 선택하는 top_p 값을 0.95로 설정할 것을 권장한다. 세밀하게 조정된 하이퍼파라미터 설정이 모델의 정밀도와 유연성을 결정하는 핵심 장치가 된다.

확인해야 할 핵심 지점

코드를 한 줄 고칠 때마다 AI의 답변을 기다리는 몇 초가 쌓이면 개발 흐름이 완전히 끊긴다. North Mini Code는 전체 300억 개의 파라미터(인공지능이 학습하는 변수)를 보유하고 있지만, 실제 답을 내놓는 추론 과정에서는 30억 개의 파라미터만 활성화한다. 모델이 가진 전체 지식 용량은 그대로 유지하면서, 계산에 필요한 자원만 선택적으로 사용하는 방식이다. 연산 비용을 획기적으로 낮춰 응답 속도를 끌어올린 설계다.

한 번에 읽고 처리할 수 있는 텍스트 양인 컨텍스트 렝스는 256K(약 25만 6천 토큰)를 지원한다. 결과물로 내보내는 최대 출력 길이는 64K로 설정되어 있다. 수만 줄의 코드로 이루어진 대규모 프로젝트 전체 구조를 한 번에 파악해야 하는 작업에서도 기억 상실 없이 매끄러운 결과물을 내놓는다. 매우 긴 코드 생성 작업에서도 중간에 내용이 끊기지 않고 완결된 형태의 코드를 제공할 수 있다.

이러한 효율성과 처리 용량은 대규모 프로젝트의 버그를 수정하거나 복잡한 인프라 구축을 자동화할 때 투입되는 비용과 속도를 가늠하는 기준이 된다. 방대한 양의 데이터를 빠르게 읽어내면서도 연산 효율을 높였기에, 실제 개발 현장에서 체감하는 작업 완료 시간과 컴퓨팅 자원 소모량을 동시에 줄일 수 있다.

AI가 짠 코드를 복사해 터미널에 붙여넣고 에러를 수정하던 핑퐁 게임은 이제 끝났다. North Mini Code는 터미널을 직접 제어하며 깃허브 이슈를 스스로 해결한다. 전체 300억 개 파라미터 중 추론할 때만 30억 개를 활성화해 연산 비용을 덜어낸 효율적 구조가 이를 뒷받침한다.

이제 대규모 프로젝트의 버그 수정이나 인프라 자동화에 투입할 비용과 속도를 계산하는 기준이 달라진다. 단순한 코드 생성을 넘어 실행과 수정의 전 과정을 책임지는 에이전트가 개발의 기본값이 된다.

Cohere, 터미널 제어까지 가능한 오픈소스 코딩 에이전트 공개

발표에서 확인된 핵심 사실

SWE-Bench, Terminal-Bench 등 다양한

확인해야 할 핵심 지점

관련 기사