금요일 오후, 어느 LLM(거대 언어 모델) 서빙 엔지니어의 모니터.

GPU 메모리 대역폭 수치가 한계치에 도달해 생성 속도가 뚝뚝 끊기는 로그가 실시간으로 올라온다.

토큰화 과정의 한계를 넘으려던 시도가 이제는 추론 속도의 병목을 해결하는 단계로 진입한다.

BLT의 구조와 추론 병목의 실체

Meta와 스탠퍼드 대학, 워싱턴 대학 연구진은 텍스트를 토큰이 아닌 원시 바이트 단위로 직접 처리하는 BLT(Byte Latent Transformer, 바이트 잠재 트랜스포머)의 생성 속도를 획기적으로 높이는 세 가지 방법을 공개했다. 기존 모델들이 BPE(바이트 쌍 인코딩, 자주 나타나는 문자 조합을 하나의 단위로 묶는 방식) 같은 토크나이저를 사용해 텍스트를 뭉텅이로 처리했다면, BLT는 가장 낮은 단위인 바이트를 직접 다룬다. 이 모델은 로컬 인코더, 대규모 글로벌 트랜스포머, 로컬 디코더의 세 가지 구성 요소로 이루어져 있으며, 엔트로피 기반 분할 전략을 통해 바이트를 가변 길이의 패치로 그룹화한다. 평균 패치 크기는 4바이트이며 최대 8바이트까지 확장된다.

기존 BLT의 가장 큰 문제는 추론 속도에 있었다. 로컬 디코더가 자기회귀(이전 결과물을 다음 입력으로 사용하는 방식) 형태로 바이트를 하나씩 생성하기 때문이다. 일반적인 서브워드 토큰 하나가 여러 바이트에 해당하므로, BLT는 토큰 기반 모델이 한 번의 단계로 생성할 양을 만들기 위해 여러 번의 디코더 순전파 과정을 거쳐야 한다. 현대의 LLM 서빙에서 병목은 연산량보다 메모리 대역폭, 즉 메모리에서 모델 가중치와 KV-캐시(이전 계산 값을 저장해 재사용하는 메모리 영역)를 반복적으로 불러오는 과정에서 발생한다. 디코더의 순전파 횟수가 늘어날수록 메모리 로드 횟수가 증가해 생성 속도가 느려지는 구조다.

BLT-D와 BLT-S가 바꾸는 추론 방식

BLT-D는 바이트를 하나씩 생성하던 방식에서 벗어나 블록 단위의 이산 확산 모델(데이터를 단계적으로 복원하며 예측하는 방식)을 로컬 디코더에 도입했다. 학습 단계에서 디코더는 깨끗한 바이트 시퀀스와 고정 길이의 바이트 블록으로 구성된 오염된 시퀀스를 동시에 입력받는다. 각 블록 내의 바이트는 확률적으로 [MASK] 토큰으로 대체되며, 모델은 이를 예측하도록 학습된다. 실험에서 블록 크기 B는 4, 8, 16바이트로 설정되었으며, 이는 BLT의 평균 패치 크기인 4바이트보다 커서 모델이 더 먼 미래의 바이트를 예측하도록 유도한다.

추론 시 BLT-D는 [MASK] 위치를 초기화한 뒤, 한 번의 디코더 단계에서 여러 바이트 위치를 동시에 해제한다. 예측 확률이 임계값 alpha를 넘는 위치를 해제하는 신뢰도 기반 방식이나, 누적 엔트로피가 임계값 gamma 이하로 유지되는 부분집합을 선택하는 EB(엔트로피 경계) 샘플링 방식을 사용한다. 30억 개(3B) 파라미터 모델 기준, 블록 크기가 4인 BLT-D-4는 기존 BLT의 작업 점수를 거의 유지하면서 메모리 대역폭을 절반 이하로 줄였다. 블록 크기가 16인 BLT-D-16은 메모리 대역폭 비용을 87%에서 92%까지 절감하며 가장 빠른 속도를 기록했으나, HumanEval이나 MBPP(파이썬 코딩 벤치마크) 같은 코딩 테스트의 pass@1 점수는 낮아지는 경향이 관찰된다.

BLT-S는 별도의 추가 학습이나 구조 변경 없이 추측적 디코딩(가벼운 모델이 먼저 예측하고 큰 모델이 검증하는 방식)을 적용했다. 기존 BLT의 가벼운 로컬 디코더를 초안 작성자로 활용하는 것이 핵심이다. 표준 BLT 추론에서는 엔트로피 기반 패처가 경계를 결정할 때마다 생성을 멈추지만, BLT-S는 엔트로피 급증과 상관없이 고정된 윈도우 크기 k(8 또는 16바이트)까지 바이트를 생성한다. 이후 전체 모델이 이 후보 시퀀스를 다시 인코딩하고 검증하여 일치하지 않는 첫 번째 바이트를 수정한다.

그리디 디코딩(가장 확률이 높은 토큰만 선택하는 방식) 환경에서 BLT-S는 표준 BLT와 동일한 출력을 보장하므로 품질 손실이 전혀 없다. 3B 파라미터 모델에서 k=16으로 설정했을 때, BLT-S는 작업 성능 저하 없이 메모리 대역폭을 최대 77%까지 줄일 수 있다. 이 외에도 BLT-D의 확산 목적 함수와 표준 다음 바이트 예측 목적 함수를 모두 학습시킨 가중치를 활용해, 상황에 따라 자기회귀 방식과 확산 방식을 선택해 사용하는 BLT-H(하이브리드) 방식이 제안된다.

연구의 상세 내용은 arXiv:2412.05100에서 확인할 수 있다.

이제 모델의 성능 경쟁은 파라미터 숫자가 아니라, 데이터의 가장 낮은 단위인 바이트를 얼마나 효율적으로 읽어내느냐의 싸움으로 옮겨간다.