18%.
일본어 생성 시 필요한 토큰 수가 이만큼 줄어들었다는 뜻이다. 텍스트를 더 적은 조각으로 쪼개어 처리한다는 건, 같은 비용으로 더 많은 데이터를 처리하거나 응답 속도를 높일 수 있다는 실질적인 운영 이득을 의미한다. 그런데 이번 코히어(Cohere, 캐나다 AI 연구소)의 행보는 단순한 토큰 최적화를 넘어, 그동안 기업용 AI 시장에서 유지해온 폐쇄적인 라이선스 전략을 완전히 뒤집는 파격적인 선언으로 이어지고 있다.
지금 개발자 커뮤니티에서는 "코히어가 드디어 빗장을 풀었다"는 반응이 뜨겁다. 그동안 CC-BY-NC 같은 제한적 라이선스로 기업들의 발목을 잡았던 과거를 뒤로하고, 완전한 오픈소스 라이선스인 Apache 2.0을 들고 나왔기 때문이다. 이는 단순히 모델 하나를 푼 것이 아니라, 기업이 자신의 보안 환경 내에서 모델을 완전히 통제하는 '소버린 AI(Sovereign AI)' 시대를 가속화하겠다는 계산된 베팅이다. 특히 2,180억 개의 거대 파라미터를 갖췄음에도 단일 GPU에서 돌아가게 만든 기술적 집착이 실무자들 사이에서 큰 화제가 되고 있다. 단순한 벤치마크 점수 경쟁이 아니라, 실제 배포 환경에서의 '가성비'와 '신뢰성'이라는 실무적 가치를 정면으로 겨냥했다는 점이 이번 업데이트의 핵심이다.
2,180억 파라미터와 Apache 2.0 라이선스의 결합
개발자들이 가장 먼저 주목한 지점은 허깅페이스(Hugging Face, AI 모델 공유 플랫폼)에 공개된 가중치와 라이선스 표기다. 코히어(Cohere)가 이번에 내놓은 Command A+는 전체 파라미터 2,180억 개(218B)라는 거대한 규모를 갖췄지만, 실제 추론 시 작동하는 활성 파라미터는 250억 개(25B)에 불과하다. 이는 디코더 전용 희소 전문가 혼합(Sparse Mixture-of-Experts, MoE) 트랜스포머 구조를 채택했기 때문에 가능한 설계다. 모든 파라미터를 다 쓰는 대신 쿼리에 최적화된 특정 전문가 네트워크만 활성화해 연산 효율을 극대화한 셈이다. 커뮤니티에서는 거대 모델의 지식량은 유지하면서 추론 비용과 속도는 소형 모델 수준으로 낮췄다는 점에 즉각 반응하고 있다. 특히 수조 개의 파라미터로 추정되는 폐쇄형 모델들과 달리, 기업이 감당해야 할 하드웨어 진입 장벽을 획기적으로 낮췄다는 평가가 지배적이다.
더 뜨거운 논쟁의 중심은 라이선스의 변화다. 코히어는 기존 Command R 시리즈에서 적용했던 CC-BY-NC 4.0(비상업적 이용 허용 라이선스)의 제약을 완전히 걷어내고 Apache 2.0 라이선스를 선택했다. OSI(Open Source Initiative, 오픈 소스 표준 정의 기구) 승인을 받은 이 라이선스는 독립 개발자부터 포춘 500대 기업까지 모델을 상업적으로 이용하거나 수정하고 배포하는 데 아무런 제약이 없다. 그동안 많은 기업이 오픈 소스라고 주장하는 모델들의 까다로운 상업적 이용 약관이나 경쟁 모델 학습 금지 조항 때문에 도입을 망설였던 맥락을 정확히 파고든 전략이다. 개발자들 사이에서는 이제 진정한 의미의 소버린 AI(Sovereign AI, 국가나 기업이 자체적으로 통제하는 AI) 구현이 가능해졌다는 목소리가 나온다. 외부 API에 의존하지 않고 자체 보안 환경 내에서 프런티어급 모델을 완전히 제어하고 최적화할 수 있게 되었기 때문이다.
기능적 확장성 역시 기업용 AI의 기준을 한 단계 높였다. Command A+는 텍스트와 이미지를 네이티브하게 처리하는 멀티모달 기능을 탑재했으며, 입력 컨텍스트 윈도우는 128K에 달한다. 방대한 양의 스캔 문서나 차트를 한 번에 처리해야 하는 기업 환경에서 128K의 컨텍스트 창은 실질적인 업무 생산성 차이를 만든다. 여기에 48개국 언어를 네이티브하게 지원하는 최적화된 토크나이저(Tokenizer, 텍스트를 모델이 처리하는 단위로 분절하는 도구)를 적용해 글로벌 배포 효율을 높였다. 특히 한국어를 포함한 비유럽권 언어의 토큰 효율을 개선해 동일한 응답을 생성할 때 필요한 토큰 수를 줄였으며, 이는 곧 추론 비용의 직접적인 절감으로 이어진다. 단순히 벤치마크 성능 수치를 올리는 것을 넘어, 실제 운영 비용이라는 기업의 현실적인 페인 포인트에 답을 내놓은 결과다.
'양자화 세금' 지운 W4A4 기술과 MoE 구조
개발팀이 공개한 구조도는 디코더 전용 스파스 MoE(Sparse Mixture-of-Experts, 희소 전문가 혼합) 트랜스포머 기반이다. 전체 파라미터는 2180억 개에 달하지만 실제 추론 단계에서 활성화되는 파라미터는 250억 개뿐이다. 쿼리가 들어오면 모든 신경망을 동시에 가동하는 기존 밀집 모델과 달리 해당 작업에 최적화된 특정 전문가 네트워크로만 경로를 지정해 연산량을 획기적으로 줄였다. 거대 모델이 가진 방대한 지식 베이스와 정교한 추론 능력은 그대로 유지하면서 실행 속도는 소형 모델 수준으로 끌어내린 전략이다. 커뮤니티에서는 이제 모델의 전체 크기보다 실제 연산에 참여하는 활성 파라미터의 효율성이 실질적인 성능 지표라는 논의가 뜨겁게 오가고 있다.
기술적 핵심은 W4A4(Weight 4-bit, Activation 4-bit) 양자화 포맷을 통해 메모리 점유율을 극단적으로 낮춘 점이다. 일반적으로 모델의 정밀도를 낮춰 압축하면 복잡한 문제 해결 능력이 눈에 띄게 퇴보하는 양자화 세금(Quantization Tax) 현상이 발생해 개발자들의 고민이 깊었다. 코히어는 이를 해결하기 위해 모든 곳을 깎아내는 대신 핵심 어텐션 경로는 고정밀도로 유지하고 MoE 전문가 네트워크만 4비트로 압축하는 하이브리드 방식을 도입했다. 여기에 양자화 인식 증류(Quantization-Aware Distillation) 기술을 적용해 압축 과정에서 발생하는 정보 손실을 보정했다. BF16(Bfloat16)이나 FP8(Floating Point 8) 같은 기존 포맷보다 훨씬 가볍지만 성능 저하는 거의 없는 무손실에 가까운 압축을 구현해 냈다.
하드웨어 요구사항이 낮아진 점은 인프라 구축 단계에서 즉각적인 체감 변화로 이어진다. 이 정도 규모의 모델을 NVIDIA Blackwell B200 GPU 1장 또는 NVIDIA H100 2장만으로 충분히 구동할 수 있다는 사실이 개발자들을 자극하고 있다. 실제 성능 지표를 보면 낮은 동시성 환경에서 초당 375개 토큰(TOPS)을 생성하며 첫 토큰 생성 시간(TTFT, Time-to-First-Token)은 113밀리초라는 빠른 응답성을 보여준다. 이는 이전 모델인 Command A Reasoning과 비교했을 때 출력 속도는 최대 63% 증가했고 지연 시간은 17% 감소한 수치다. 고가의 GPU 자원을 대량으로 투입해야 했던 기존의 상용 모델들과 달리 하드웨어 진입 장벽을 획기적으로 낮추며 기업용 AI 배포의 현실적인 대안을 제시했다는 반응이 지배적이다.
한국어 효율 16% 상승과 네이티브 인용의 실무적 가치
개발팀이 가장 먼저 계산기를 두드리는 지점은 토큰 효율이다. 이번 업데이트에서 한국어 토큰 효율이 16% 개선되었다는 점은 실무자들에게 매우 뜨거운 감자다. 보통 비유럽권 언어는 토큰화 과정에서 더 많은 조각으로 쪼개져 비용이 더 발생하는 일종의 토큰 세금 문제가 고질적이었다. 일본어 18%, 아랍어 20%의 효율 상승과 함께 한국어 비용이 줄어들었다는 것은 글로벌 서비스를 운영하는 기업 입장에서 운영비(OPEX)를 직접적으로 깎아내는 효과를 준다. 특히 API 호출 횟수가 방대한 엔터프라이즈 환경에서는 이 작은 비율의 차이가 월간 청구서의 앞자리를 바꿀 수 있는 수준이다. 단순한 성능 향상을 넘어 프로덕션 도입의 경제적 문턱을 낮췄다는 평가가 커뮤니티에서 빠르게 확산되는 이유다.
실제 서비스 적용 시 가장 큰 걸림돌이었던 신뢰성 문제는 네이티브 인용 기능으로 정면 돌파했다. Command A+는 외부 도구에서 정보를 가져올 때 단순히 답변을 요약하는 수준을 넘어 구체적인 근거 범위를 지정하는 Grounding Spans(그라운딩 스팬, 모델이 답변의 근거가 된 원문 영역을 태그로 표시하는 기능) 태그를 지원한다. 금융이나 법률, 의료처럼 단 하나의 수치 오류가 치명적인 산업군에서는 이 추적 가능성이 단순한 흥미 위주의 프로토타입과 실제 상용 제품을 가르는 결정적 차이가 된다. 개발자가 일일이 프롬프트로 근거 제시를 강제하며 고군분투하던 기존 방식에서 벗어나, 모델 수준에서 태그를 통해 출처를 명시함으로써 할루시네이션을 제어해야 하는 에이전트 설계의 난이도가 획기적으로 낮아졌다. 이는 데이터의 정합성이 최우선인 기업용 AI 에이전트 시장의 가려운 곳을 정확히 긁어준 지점이다.
추론 성능의 도약은 벤치마크 수치에서 더 극명하게 드러난다. 복잡한 추론 능력을 측정하는 𝜏²-Bench Telecom(타우 스퀘어 벤치 텔레콤) 점수가 기존 37%에서 85%로 수직 상승했다. 에이전트의 코딩 능력을 보는 Terminal-Bench Hard(터미널 벤치 하드) 역시 3%라는 낮은 수준에서 25%까지 올라왔으며, 수학 능력을 측정하는 AIME 25(미국 수학 초청 시험)에서는 57%에서 90%라는 압도적인 성적을 기록했다. 특히 수학 벤치마크에서는 DeepSeek V4 Pro(딥시크 V4 프로)와 경쟁 가능한 수준까지 올라오며 활성 파라미터 수 대비 강력한 추론 성능을 입증했다. 이는 단순한 질의응답 챗봇을 넘어 스스로 외부 도구를 사용하고 복잡한 단계를 거쳐 판단하는 에이전트 워크플로우를 구현하려는 개발자들에게 실질적인 성능적 보증수표가 된다.




