오픈소스 모델을 사용하는 개발자라면 한 번쯤 겪어봤을 상황이다. 벤치마크 점수가 훌륭한 모델을 내려받아 클라우드 서비스에 올렸는데, 정작 내가 받은 답변은 기대보다 훨씬 엉뚱하거나 성능이 낮게 나오는 경우다. 같은 모델인데 왜 내가 쓰는 환경에서만 성능이 떨어지는지, 혹은 내가 설정을 잘못한 것인지 답답함이 밀려온다.

Kimi K2.6 출시와 KVV의 구체적 검증 데이터

Kimi는 최신 모델인 Kimi K2.6과 함께 Kimi Vendor Verifier(KVV, 추론 제공자의 정확도를 검증하는 도구) 프로젝트를 오픈소스로 공개했다. 개발자 커뮤니티에서 보고된 벤치마크 점수 이상 현상을 조사한 결과, 상당수가 디코딩 파라미터(모델이 다음 단어를 선택하는 방식의 설정값)를 잘못 사용한 것에서 비롯되었음을 확인했다.

이를 해결하기 위해 Kimi는 API 수준에서 Thinking 모드일 때 Temperature(답변의 무작위성을 조절하는 값)를 1.0으로, TopP(상위 확률 누적 값으로 단어 후보군을 제한하는 설정)를 0.95로 강제 고정하고 사고 과정이 정확히 전달되는지 검증하는 방어선을 구축했다. 또한 LiveBenchmark(실시간으로 모델 성능을 측정하는 평가 도구)에서 공식 API와 제3자 API 간의 성능 차이가 광범위하게 나타나는 것을 발견했다.

KVV의 정확한 검증을 위해 Kimi는 vLLM(대규모 언어 모델을 효율적으로 실행하는 라이브러리), SGLang(구조화된 언어 생성을 돕는 프레임워크), KTransformers(모델 최적화 도구) 커뮤니티와 협력해 근본적인 원인을 수정하고 있다. 실제 검증 워크플로우는 NVIDIA H20 8-GPU 서버 2대에서 수행되었으며, 순차 실행 시 약 15시간이 소요되었다. 효율성을 높이기 위해 스트리밍 추론(답변을 실시간으로 끊어서 내보내는 방식), 자동 재시도, 체크포인트 재개(중단된 지점부터 다시 시작하는 기능) 메커니즘을 최적화했다.

Kimi는 배포 후 불만이 나오기를 기다리는 대신, 인프라 제공자들에게 모델을 미리 테스트할 수 있는 권한을 부여하는 사전 검증 단계를 도입했다. 이를 통해 제공자들은 사용자가 문제를 겪기 전에 자신의 스택을 미리 검증할 수 있다. 또한 벤더별 결과가 담긴 공개 리더보드를 지속적으로 유지하여 투명성을 확보하고, 제공자들이 정확도 개선을 최우선 과제로 삼도록 유도하고 있다.

모델 가중치와 실행 환경의 괴리가 만드는 성능 격차

오픈소스 모델의 세계에서는 모델의 뇌에 해당하는 가중치를 공개하는 것이 전부가 아니다. 공개된 가중치를 어떤 서버 환경에서, 어떤 설정값으로 돌리느냐에 따라 실제 성능은 천차만별로 달라진다.

쉽게 말하면, 모델의 설계도는 완벽해도 이를 구현하는 엔지니어링 단계에서 오차가 발생하면 모델의 원래 능력이 발휘되지 않는다는 뜻이다. 비유하자면 세계 최고의 요리 레시피가 공개되었는데, 요리사마다 불의 세기나 팬의 종류를 다르게 사용해 완성된 요리의 맛이 제각각인 상황과 같다.

사용자 입장에서 가장 곤혹스러운 점은 지금 겪는 성능 저하가 모델 자체의 한계인지, 아니면 서버 제공자의 설정 실수인지 구분할 방법이 없다는 것이다. 이러한 불확실성이 계속되면 오픈소스 생태계에 대한 신뢰는 무너질 수밖에 없다. KVV는 바로 이 지점에서 제공자들의 구현 정확도를 투명하게 공개하는 표준 잣대 역할을 수행한다. 제공자들이 정확도를 우선시하도록 유도하는 공개 리더보드를 운영함으로써, 모델의 잠재력을 100% 끌어낼 수 있는 환경을 강제하는 셈이다.

이제 오픈소스의 가치는 단순히 가중치를 공유하는 것을 넘어, 어디서든 동일한 성능을 보장하는 실행 표준을 세우는 방향으로 이동하고 있다.