토크나이저 장벽 허물고 성능 올린 엔비디아 X-Token

늦은 밤 연구실, 듀얼 모니터 앞. 서로 다른 모델의 토큰 ID 리스트를 대조하던 개발자가 한숨을 내쉰다. 교사 모델인 Qwen3에서는 '201'이 토큰 하나로 처리되지만, 학생 모델인 Llama-3.2에서는 세 개의 토큰으로 쪼개져 정렬이 완전히 어긋나기 때문이다.

이런 풍경은 그동안 서로 다른 토크나이저를 사용하는 모델 간의 지식 증류(Knowledge Distillation)를 시도할 때 마주하는 필연적인 제약이었다. 어휘집이 다르면 토큰 위치가 대응되지 않아, 더 강력한 교사 모델이 있어도 활용하지 못하고 같은 토크나이저를 쓰는 약한 모델에 의존해야 했다. 이 구조적 불일치 문제를 해결하는 기술이 엔비디아의 X-Token이다.

Llama-3.2-1B 성능 3.82포인트 끌어올린 X-Token

지식 증류는 거대 모델의 지식을 소형 모델로 전이하는 핵심 기법이지만, 토큰 단위의 확률 분포를 직접 비교하는 기존 방식은 모델 간 어휘 사전이 일치해야만 했다. 엔비디아 연구팀이 공개한 X-Token은 로짓 분포 기반의 교차 토크나이저 지식 증류를 구현해 이 제약을 극복했다. 이는 별도의 추가 학습 컴포넌트나 아키텍처 변경 없이 기존 학습 파이프라인에 즉시 통합할 수 있는 드롭인 리플레이스먼트 방식이다.

기존 업계 표준인 GOLD 방식은 토큰을 공통 집합과 비공통 집합으로 분리해 학습한다. 그러나 Llama-3.2-1B 모델을 기준으로 Qwen3-4B를 교사 모델로 활용할 경우, 숫자 같은 중요 토큰이 비공통 집합으로 분류되는 결함이 발생한다. 이 과정에서 발생하는 노이즈와 억제성 그래디언트는 추론 성능을 저하시키며, 실제로 GOLD 방식을 적용했을 때 GSM8k 벤치마크 정확도는 2.56포인트까지 하락했다.

X-Token은 동적 프로그래밍을 활용한 스팬 정렬과 투영 행렬을 통해 이 한계를 해결했다. Llama-3.2-1B 모델 대상 실험 결과, 기존 SOTA인 GOLD 대비 평균 3.82포인트의 성능 향상을 기록했다. 연구팀이 제시한 P-KL과 H-KL 손실 함수는 데이터 특성에 따라 최적의 정렬 방식을 선택해 토큰 파편화가 심한 환경에서도 안정적인 지식 전이를 보장한다.

이번 기술의 핵심은 토크나이저의 물리적 차이를 확률적 투영으로 치환한 점이다. 투영 행렬은 1회성 구성만으로 모델 간 의미적 연결 고리를 생성하며, 학습 과정에서 추가 연산 부담을 주지 않는다. 결과적으로 특정 모델에 종속되지 않는 범용적인 증류 환경을 구축해 소형 언어 모델의 성능 한계를 돌파하는 경로를 확보했다.

DP 스팬 정렬과 투영 행렬 W의 작동 원리

서로 다른 토크나이저를 사용하는 모델 간 지식 증류의 가장 큰 걸림돌은 토큰 단위의 불일치다. 이를 해결하기 위해 동적 계획법(DP) 기반의 스팬 정렬을 도입한다. 이 방식은 교사와 학생 토크나이저가 생성한 시퀀스를 동일한 텍스트 부분 문자열로 디코딩되는 단위로 그룹화한다. DP 스팬 정렬은 갭(gap) 이동을 통해 시퀀스 길이에 상관없이 정렬을 유지하며, 체인 규칙을 적용해 덩어리 내 개별 토큰 확률을 하나의 덩어리 수준 분포로 결합한다.

어휘집 불일치를 물리적으로 연결하는 도구는 투영 행렬 $W \in \mathbb{R}^{|V_S| \times |V_T|}$이다. 이 행렬은 학생 토큰을 교사 토큰의 가중치 조합으로 매핑하며, 두 단계의 결정론적 과정을 거쳐 구축된다. Pass 1에서는 정규화 후 문자열이 정확히 일치하는 쌍을 찾아 $W[s, t] = 1$을 할당해 확실한 정렬 정보를 우선 확보한다.

Pass 2는 정확히 일치하지 않는 토큰을 처리하는 다중 토큰 규칙이다. 일치 항목이 없는 학생 토큰의 텍스트를 교사 토크나이저로 재토큰화하고, 결과 시퀀스가 4개 이하일 경우 지수 감쇠 가중치를 부여한다. 가중치는 $\beta=0.9, \gamma=0.1$을 적용해 첫 번째 하위 토큰에 가장 높은 가중치를 배정한다. 이는 언어 모델의 토큰이 일반적으로 첫 번째 하위 토큰에 가장 많은 확률 질량을 담고 있다는 점에 근거한다. 행렬의 각 행은 합이 1이 되도록 정규화되어 정보 손실을 최소화하며, 학습 전 한 번만 구축되므로 추가 학습 파라미터를 요구하지 않는다.

GOLD의 구조적 결함과 P-KL의 해결책

기존 SOTA인 GOLD는 엄격한 문자열 일치 방식으로 공통 집합을 정의하고, 제외된 토큰은 순위 기반의 ULD(Universal Logit Distillation)로 처리하는 하이브리드 방식을 택했다. 그러나 이 구조는 토크나이저 간 분절 방식이 다를 때 치명적이다. Llama-3는 '201'을 단일 토큰으로 처리하지만 Qwen3는 '2', '0', '1'로 분절한다. 이 차이로 Llama-3의 숫자 토큰 1,100개가 공통 집합에서 배제되며, Qwen3-4B를 교사로 활용한 GSM8k 벤치마크 정확도는 2.56까지 하락했다. 이는 동일 토크나이저를 쓰는 Llama-3.2-3B 교사 모델의 12.89보다 현저히 낮은 수치다.

또한 'Hundreds'라는 단어가 교사 모델의 'Hund'와 'reds'로 대응될 수 있음에도 GOLD는 이를 일치하지 않는 데이터로 간주해 폐기한다. 이러한 보수적 매칭은 유용한 정렬 신호를 차단하며, 공통 집합에 포함되지 못한 토큰들은 ULD 방식에 의해 노이즈로 처리되거나 확률값이 억제되는 역효과를 낳는다.

이를 해결하기 위해 도입된 P-KL(Projection KL)은 파티션 구조를 완전히 제거한다. 투영 행렬 $W$를 사용하여 학생 모델의 확률 분포를 교사 모델의 어휘 공간으로 직접 투영한다. 1대1 대응이 불가능하더라도 $W$ 행렬이 학생 토큰의 확률 질량을 교사 모델의 여러 토큰으로 분산시켜 전달하므로, '201' 같은 복합 토큰은 '2', '0', '1' 토큰으로 자연스럽게 매핑된다. 이 방식은 GOLD의 노이즈 문제와 억제성 기울기 문제를 원천적으로 차단한다.

ULD가 토큰의 의미를 무시하고 분포의 형태만을 맞추는 L1 거리 최소화 방식인 반면, P-KL은 $W$ 행렬로 의미적 대응 관계를 보존하며 KL 발산을 계산한다. 이를 통해 학생 모델은 모든 토큰에 대해 교사 모델의 지식을 온전히 학습하며, 교사 모델의 지식을 학생 모델의 어휘 체계에 맞게 재구성해 전달한다.

모델 선택의 제약 제거와 지식 증류 효율화

X-Token은 학생 모델의 토크나이저라는 물리적 제약 없이 벤치마크 수치가 가장 높은 최적의 교사 모델을 자유롭게 선택할 수 있게 한다. 이제 Llama-3.2-1B를 학생으로 설정하고 토크나이저가 호환되지 않는 Phi-4-mini나 Qwen3-4B 같은 고성능 모델을 교사로 활용해 다크 노리지(Dark Knowledge)를 직접 전이할 수 있다.

교사 모델의 특성과 정렬 상태에 따라 P-KL과 H-KL 손실 함수를 구분해 사용한다. 중요 토큰이 서로 불일치하는 Qwen3-4B 환경에서는 P-KL 방식이 H-KL 대비 평균 +3.55포인트의 성능 우위를 기록했다. 반면 Phi-4-mini-Instruct처럼 파티션 구조가 안정적이고 중요 토큰이 공통 집합에 포함되는 경우에는 H-KL 방식이 더 날카롭고 정확한 감독 신호를 제공해 적합하다.

지식 전이 범위는 이제 서로 다른 패밀리의 조합인 멀티 티처 증류(Multi-teacher distillation)로 확장된다. 연산 효율성 문제는 동적 계획법(DP)을 이용한 스팬 정렬 결과를 시퀀스별로 미리 계산해 캐싱함으로써 해결했다. 이를 통해 실제 학습 단계의 추가 오버헤드를 제거하여, 개발자는 추가 컴퓨팅 자원 없이 다양한 교사 모델의 강점을 하나의 학생 모델에 효율적으로 이식할 수 있다.

sLLM 최적화가 시급한 한국 AI 실무자를 위한 시사점

한국어 특화 sLLM을 구축하는 실무자는 운영 비용과 추론 속도를 위해 모델 크기를 극단적으로 줄여야 한다. 하지만 성능 보완을 위해 고성능 외부 모델의 지식을 가져오려 할 때, 토크나이저 분절 방식의 불일치가 성능 상한선을 결정하는 제약이 되어왔다. X-Token은 투영 행렬 $W$와 DP 기반 스팬 정렬을 통해 이러한 단어 사전 사이의 간극을 메우고, P-KL 손실 함수로 학습 노이즈를 제거해 고성능 모델의 로짓 분포를 그대로 전이할 수 있는 경로를 확보했다.

실무 단계의 가장 큰 이점은 추가적인 아키텍처 수정 없이 손실 함수만 교체하면 된다는 점이다. 별도의 보조 컴포넌트를 추가하거나 레이어를 수정할 필요 없이 표준 손실 함수를 P-KL이나 H-KL로 대체하는 것만으로 구현이 완료된다. 이는 온디바이스 환경이나 폐쇄형 프라이빗 클라우드처럼 컴퓨팅 자원이 극도로 제한된 환경에서 모델 경량화와 고성능화를 동시에 달성하는 실질적인 도구가 된다.

결국 X-Token은 토크나이저의 구조적 한계를 제거해 연산 효율과 성능을 동시에 끌어올렸다. 이는 단순한 수치 상승을 넘어 데이터 처리의 기초 설계가 모델 전체의 성능 상한선을 결정한다는 사실을 보여준다. 하드웨어 가속만큼이나 토크나이저와 같은 기초 단위의 최적화가 LLM의 실질적 경쟁력을 결정하며, 토큰의 효율성이 추론의 완성도를 좌우한다.

X-Token은 토크나이저의 구조적 한계를 제거해 연산 효율과 성능을 동시에 끌어올렸다. 기존 방식이 가진 토큰 분절의 비효율을 해결함으로써 모델이 데이터의 본질적인 의미를 더 정확하게 파악하게 된다. 이는 단순한 수치 상승을 넘어 데이터 처리의 기초 설계가 모델 전체의 성능 상한선을 결정한다는 사실을 입증한다. 하드웨어의 가속 성능만큼이나 토크나이저와 같은 기초 단위의 최적화가 LLM의 실질적 경쟁력을 가른다. 결국 데이터의 최소 단위인 토큰의 효율성이 추론의 완성도를 결정한다.