30%.

L1 regularization(모델의 가중치를 작게 만들어 과적합을 방지하는 기법)을 적용했을 때 레이어 전반에서 평균적으로 비활성화되는 뉴런의 비율이다. 거대한 사무실에서 직원 3명 중 1명이 자리를 비웠음에도 업무 효율은 그대로 유지되는 상황과 같다. 그런데 지금까지의 GPU(그래픽 처리 장치)는 이 빈자리를 인식하지 못하고 모든 데이터를 일일이 계산하며 자원을 낭비해 왔다.

TwELL과 CUDA 커널의 기술적 제원

Sakana AI와 NVIDIA(엔비디아) 연구팀은 LLM(거대 언어 모델)의 추론 속도를 20.5%, 학습 속도를 21.9% 높이는 TwELL(Tile-wise ELLPACK, 타일 단위의 희소 데이터 포맷)과 전용 CUDA(NVIDIA GPU 전용 병렬 컴퓨팅 플랫폼) 커널을 공개했다. LLM의 피드포워드 층은 전체 파라미터의 3분의 2 이상을 차지하며, 대형 모델에서는 전체 FLOPs(초당 부동 소수점 연산 횟수)의 80% 이상이 여기서 발생한다. 연구팀은 ReLU(입력값이 0보다 작으면 0을, 크면 그대로 출력하는 활성화 함수)를 게이트 활성화 함수로 사용하고 L1 loss(가중치 합의 절대값을 최소화하는 손실 함수) 항을 추가해 희소성을 유도했다.

L1 계수를 2×10⁻⁵로 설정했을 때 정확도 손실 없이 뉴런의 30% 이상을 비활성화할 수 있음이 관찰된다. 연구팀은 게이트 가중치를 재초기화하는 전략을 통해 정확도 저하 없이 속도를 17.9%에서 19.1%까지 추가로 끌어올렸다. 이러한 희소성 유도 전략은 매우 최소한으로 설계되었으며, 학습률이나 가중치 감쇠, 옵티마이저 설정과 같은 다른 하이퍼파라미터에는 영향을 주지 않는 것으로 나타났다.

하드웨어 구조에 맞춘 데이터 포맷의 변화

예전의 희소 행렬 처리 방식인 ELLPACK(행 단위로 0이 아닌 값을 저장하는 방식)은 밀집 데이터를 희소 표현으로 변환하는 별도의 커널 패스가 필요했다. 이 변환 과정에서 발생하는 오버헤드가 0을 건너뛰어 얻는 이득을 상쇄하는 문제가 반복되었다. TwELL은 계산 단위를 CTA(Cooperative Thread Array, GPU 내에서 협력하는 스레드 그룹)에 할당되는 2D 타일 크기에 맞췄다. 게이트 투영 커널의 에필로그에서 TwELL 포맷을 직접 생성하므로 추가적인 커널 실행이나 전역 메모리 읽기, CTA 간 동기화가 필요 없다. 이 포맷은 압축 계수 C를 사용하여 타일 내 최대 비제로(non-zero) 수를 수용하며, 값과 인덱스, 개수를 하나의 32비트 행렬로 패키징해 지역성을 높였다.

추론 단계에서는 하나의 융합 커널이 TwELL 포맷의 활성화를 읽어 업 프로젝션과 다운 프로젝션을 동시에 수행한다. 각 CTA는 입력의 한 행을 처리하며, 먼저 열 타일을 정적으로 순회한 뒤 각 타일의 비제로 개수를 동적으로 처리한다. 활성화된 뉴런의 인덱스에 따라 업 프로젝션 가중치 행렬의 열과 다운 프로젝션 가중치 행렬의 행을 로드해 내적을 계산한다. 이 과정에서 중간 은닉 상태를 DRAM(컴퓨터의 주 기억 장치)에 쓰지 않고 즉시 처리함으로써 메모리 트래픽을 획기적으로 줄였다.

학습 단계에서는 희소성 패턴이 토큰과 레이어마다 매우 불규칙하다는 점을 고려해 하이브리드 포맷을 도입했다. 0이 아닌 값의 수가 임계값보다 적은 행은 콤팩트한 ELL 행렬로, 이를 초과하는 행은 밀집 백업 행렬로 동적으로 라우팅한다. 이를 통해 GEMV(행렬과 벡터의 곱셈 연산) 중심의 기존 방식과 달리, 수천 개의 토큰을 처리하는 GEMM(행렬과 행렬의 곱셈 연산) 환경에서도 효율적인 희소 그래디언트 계산이 가능해졌다. 게이트가 없는 기존 트랜스포머 피드포워드 블록에 적용했을 때는 11.2%의 추론 속도 향상이 관찰되었다.

LLM 최적화의 전장은 이제 모델 구조의 변경이 아니라 데이터 포맷을 하드웨어의 물리적 연산 단위에 얼마나 정밀하게 밀착시키느냐의 싸움으로 옮겨갔다.