NVIDIA, Gated DeltaNet-2 공개... 선형 어텐션의 '삭제-쓰기' 분리

NVIDIA가 선형 어텐션(Linear Attention)의 메모리 업데이트 병목을 해결한 Gated DeltaNet-2를 공개했다. 선형 어텐션은 소프트맥스 어텐션의 무제한적인 KV 캐시를 고정 크기의 재귀 상태(Recurrent State)로 대체하여, 시퀀스 믹싱 시간을 선형으로 줄이고 디코딩 메모리를 상수로 유지하는 기술이다. 그러나 압축된 메모리를 편집하는 과정에서 기존의 연관 관계를 훼손하지 않고 새로운 정보를 기록하는 것은 기술적 난제로 남아 있었다.

두 개의 채널별 게이트로 활성 메모리 편집 과정을 분리한 것이 이번 모델의 핵심 해결책이다. 해당 모델은 1.3B(13억 개)의 파라미터 규모로 100B(1,000억 개)의 FineWeb-Edu 토큰을 통해 학습되었다. 벤치마크 결과, Gated DeltaNet-2는 Mamba-2, Gated DeltaNet, KDA, 그리고 Mamba-3를 포함한 기존의 주요 선형 어텐션 모델들을 일관되게 앞서는 성능을 기록했다. 특히 메모리 상태 크기를 동일하게 맞춘 조건에서도 성능 향상이 나타났다는 점은, 단순한 메모리 증설이 아닌 업데이트 규칙의 효율성 개선이 핵심임을 시사한다.

Gated DeltaNet-2: 1.3B 파라미터와 100B 토큰 학습 제원

개발팀이 공개한 수치는 여기서 갈린다. Gated DeltaNet-2는 1.3B 파라미터 규모로 설계되었으며, 학습에는 100B 규모의 FineWeb-Edu 토큰이 투입되었다. 주목할 점은 이 파라미터 규모와 학습 데이터 양이 Mamba-2, Gated DeltaNet, KDA, Mamba-3 등 비교 대상이 된 모든 베이스라인 모델과 동일하게 설정되었다는 사실이다. 이는 모델의 성능 향상이 단순한 파라미터 수의 증설이나 학습 데이터의 양적 팽창이 아니라, 새롭게 제안된 업데이트 규칙의 구조적 효율성에서 기인했음을 입증하기 위한 장치다. 교육용 데이터셋인 FineWeb-Edu를 활용해 학습 효율을 극대화한 점도 특징이다.

레이어당 재귀 상태(recurrent state) 크기는 262,144 floats로 엄격히 고정되어 있다. 이는 시퀀스 길이에 비례해 KV 캐시가 무제한으로 증가하는 기존 소프트맥스 어텐션의 구조적 한계를 극복한 설계다. 결과적으로 디코딩 과정에서 상수 메모리 점유율을 유지하며 선형 시간 복잡도로 시퀀스 믹싱을 수행한다. 학습 시퀀스 길이는 4K 토큰으로 설정되었다. 반면 하이브리드 모델의 경우, 재귀 믹서 이후에 슬라이딩 윈도우 어텐션(SWA, Sliding-Window Attention)을 추가 배치하여 정밀한 로컬 상호작용을 처리하도록 설계했다. 이때 SWA의 윈도우 크기는 2K로 제한하여 전체적인 선형 시퀀스 스케일링 특성을 훼손하지 않으면서도 단기 문맥의 정확도를 높였다. 하이브리드 셀은 Gated DeltaNet-2, MLP, SWA, MLP가 순차적으로 반복되는 구조를 취한다.

AdamW 옵티마이저를 채택하여 수렴 안정성을 확보한 점도 눈에 띈다. 피크 학습률(peak LR)은 4e-4로 설정되었으며, 가중치 감쇠(weight decay) 0.1과 그래디언트 클리핑(gradient clip) 1.0을 적용해 학습 중 발생할 수 있는 수치적 불안정성을 제어했다. 학습 스케줄은 코사인 스케줄을 따르며, 초기 1B 토큰 구간에 웜업(warmup)을 배치해 급격한 가중치 변화를 방지했다. 글로벌 배치 사이즈는 0.5M 토큰으로 설정되어 대규모 데이터 처리 효율을 높였다. 이러한 모든 최적화 하이퍼파라미터는 비교 대상 모델들과 완전히 동일하게 적용되었다. 이는 하드웨어 환경이나 최적화 설정의 차이가 아닌, 오직 모델 아키텍처의 변경만이 벤치마크 결과에 영향을 미치도록 통제된 실험 환경을 구축했음을 의미한다.

Gated Delta Rule-2: 채널별 삭제(Erase)와 쓰기(Write)의 분리 구조

기존 KDA(Kimi Delta Attention)는 활성 편집(active edit) 과정에서 단일 스칼라 값인 βt를 사용해 삭제와 쓰기를 동시에 제어했다. 이는 키(Key) 축의 기존 정보 삭제와 밸류(Value) 축의 새로운 정보 기록이라는 서로 다른 두 가지 결정이 하나의 수치에 묶여 있음을 의미한다. 이러한 결합은 모델링 관점에서 제약 사항에 가깝다. 반면 Gated DeltaNet-2는 이 구조적 제약을 깨고 채널별 벡터 게이트를 도입해 두 동작을 완전히 분리했다.

키 축에는 채널별 삭제 게이트인 bt ∈ [0,1]dk를, 밸류 축에는 채널별 쓰기 게이트인 wt ∈ [0,1]dv를 배치하는 방식을 취했다. 두 게이트 모두 토큰 표현의 시그모이드 투영(sigmoid projection)을 통해 생성된다. 주목할 점은 삭제 게이트가 읽기 방향의 채널 선택성을 부여하고, 쓰기 게이트가 밸류 업데이트의 채널 선택성을 제어한다는 사실이다. 만약 두 게이트가 동일한 스칼라 βt로 수렴한다면 KDA와 동일한 동작을 수행하며, 감쇠 계수 αt까지 스칼라가 되면 Gated DeltaNet으로 환원된다. 즉, 이전 모델들을 하위 공간으로 포함하는 확장된 구조다.

이러한 구조를 반영한 재귀 공식은 다음과 같다.

St = (I − kt (bt ⊙ kt)⊤) Dt St−1 + kt (wt ⊙ vt)⊤

여기서 Dt = Diag(αt)는 KDA에서 계승된 채널별 감쇠(Decay)를 의미한다. 삭제 행렬의 왼쪽 인자는 kt를 유지해 델타 규칙의 쓰기 방향을 보존하되, 오른쪽 인자에 bt ⊙ kt를 적용해 삭제 범위를 채널별로 세밀하게 조정한다. 쓰기 항 역시 wt ⊙ vt를 통해 밸류 업데이트를 채널 단위로 제어한다. 결과적으로 로컬 회귀 손실(local regression loss)에 대한 온라인 그래디언트 단계로 해석되며, 감쇠된 상태는 메모리에 근접하게 유지하면서 잔차 편집은 게이트된 읽기와 쓰기 타겟을 사용하게 된다.

연산 효율을 위해 64의 청크 크기(Chunk size C = 64)와 퓨즈드 트리톤 커널(fused Triton kernels)을 사용했다. 그러나 백워드 패스(backward pass)에서는 KDA에서 사용하던 스칼라 숏컷을 더 이상 적용할 수 없다. 삭제와 쓰기 양측에 서로 다른 대각 게이트가 존재하므로, 게이트 인자가 그래디언트를 누적하는 내적 연산 내부에 직접 포함되어야 하기 때문이다. 이를 위해 논문에서는 게이트 인식 벡터-자코비안 곱(gate-aware vector-Jacobian product)을 명시적으로 도출했다. 특히 Hopper GPU 환경에서는 퓨즈드 WY 백워드 커널의 워프(warp) 수를 2개에서 4개 사이로 제한했다. 이는 트리톤 WGMMA(Warpgroup Matrix Multiply-Accumulate) 레이아웃 어설션(assertion) 오류를 방지하기 위한 하드웨어 최적화 조치다.

Mamba-3 및 KDA 대비 벤치마크 수치 비교

언어 모델링과 상식 추론을 측정하는 Recurrent 설정에서 Gated DeltaNet-2는 53.11의 평균 점수를 기록했다. 반면 Mamba-3 MIMO(Multiple-Input Multiple-Output, 다중 입력 다중 출력)는 52.39, KDA(Kimi Delta Attention)는 52.28에 그쳤다. 하이브리드 설정에서의 평균 역시 Gated DeltaNet-2가 53.97을 기록하며 Mamba-3 MIMO의 52.72를 앞섰다. 주목할 점은 모든 모델의 recurrent state(순환 상태) 크기가 레이어당 262,144개의 부동 소수점으로 동일하게 맞추어졌다는 사실이다. 이는 성능 향상이 단순히 메모리 용량을 늘려서 얻은 결과가 아니라, 업데이트 규칙의 효율성에서 기인했음을 증명한다. 기존 모델들이 메모리 용량 확대로 성능을 보전하려 했던 것과 대조되는 지점이다.

장기 문맥 리트리벌 능력을 측정하는 RULER 벤치마크에서는 격차가 더 극명하게 나타난다. Recurrent 설정의 S-NIAH-2(4K) 항목에서 Gated DeltaNet-2는 93.0을 기록하며 KDA의 89.0보다 높은 수치를 보였다. 그러나 더 큰 차이는 S-NIAH-3(2K)에서 발생한다. KDA가 63.2라는 낮은 점수에 머문 반면, Gated DeltaNet-2는 89.8까지 치솟았다. MK-NIAH-1(4K)에서도 Gated DeltaNet-2는 37.8을 기록해 KDA의 28.0을 상회했다. 이러한 수치 차이는 KDA가 가졌던 단일 스칼라 게이트의 제약이 복잡한 정보 추출 과정에서 병목으로 작용했음을 시사한다. 삭제와 쓰기 게이트를 분리한 Gated DeltaNet-2의 구조가 데이터의 선택적 보존과 갱신에 더 유리하게 작용했다는 분석이 가능하다.

실제 리트리벌(Real-world retrieval) 성능 역시 Gated DeltaNet-2가 우위를 점한다. SWDE, SQuAD, FDA, TriviaQA, NQ, DROP 등 실전 데이터셋을 대상으로 한 평균 수치는 Recurrent 설정에서 29.88, Hybrid 설정에서 42.28로 집계되었다. 하이브리드 설정의 점수가 월등히 높은 이유는 SWA(Sliding-Window Attention, 슬라이딩 윈도우 어텐션)가 결합되어 국소적인 상호작용을 정밀하게 처리하기 때문이다. 반면 Recurrent 단독 모델은 긴 이력을 압축하는 과정에서 정보 손실이 발생하며 수치가 낮아진다. 그러나 동일 조건의 경쟁 모델들과 비교했을 때 Gated DeltaNet-2의 수치는 선형 어텐션이 가진 고질적인 기억 망각 문제를 상당 부분 해결했음을 보여준다. 특히 하이브리드 모델이 보여준 42.28이라는 수치는 선형 스케일링을 유지하면서도 실용적인 수준의 리트리벌 성능을 확보했음을 의미한다.

고정 크기 상태의 효율성과 롱컨텍스트 처리 영향

기존 소프트맥스 어텐션이 가진 무제한 키-값(KV) 캐시 문제는 시퀀스 길이가 늘어날수록 메모리 점유율이 기하급수적으로 증가하는 병목을 초래한다. Gated DeltaNet-2는 이를 고정 크기 재귀 상태로 대체함으로써 시퀀스 믹싱의 시간 복잡도를 선형으로, 디코딩 시 메모리 점유를 상수 단위로 고정했다. 이는 단순히 메모리 효율을 높이는 데 그치지 않고, 압축된 메모리 내부에서 기존 연관성을 훼손하지 않으면서도 새로운 정보를 정교하게 수정하는 데이터 구조를 확보했다는 점에서 기술적 변곡점을 제시한다.

반복 셀은 Gated DeltaNet-2, MLP, 슬라이딩 윈도우 어텐션(SWA), 그리고 다시 MLP가 이어지는 하이브리드 구조로 구성된다. 여기서 SWA는 국소적 상호작용을 처리하여 정밀도를 높이고, 재귀 믹서는 긴 이력을 압축하여 전체적인 문맥을 유지하는 역할을 수행한다. 이러한 분업 체계는 선형 시퀀스 스케일링이라는 효율성을 유지하면서도, 기존의 제한된 어텐션 캐시 환경에서 발생하던 정보 손실을 효과적으로 보완한다. 특히 2K 크기의 SWA 윈도우를 결합한 하이브리드 모델은 단일 재귀 모델보다 높은 성능을 기록하며 롱컨텍스트 리트리벌 성능을 유의미하게 끌어올렸다.

실제 벤치마크 결과는 이러한 구조적 설계의 실질적 이점을 증명한다. 1.3B 파라미터 규모에서 동일한 재귀 상태 크기를 유지했을 때, Gated DeltaNet-2는 Mamba-3 MIMO를 포함한 기존 모델 대비 리트리벌 작업에서 우위를 점했다. 특히 RULER 벤치마크의 S-NIAH-3 2K 환경에서 KDA(Kimi Delta Attention) 모델이 63.2를 기록한 반면, Gated DeltaNet-2는 89.8이라는 수치를 달성했다. 이는 재귀 상태의 크기를 늘리는 방식이 아니라, 업데이트 규칙 자체의 최적화를 통해 정보 보존력을 극대화했음을 의미한다. 결과적으로 고정된 메모리 자원 내에서 더 긴 문맥을 처리할 수 있는 구조적 효율성이 확보된 셈이다.

개발자 관점에서 주목할 점은 이러한 연산 효율성이 하드웨어 가속기와 결합하는 방식이다. 청크 단위의 업데이트를 위해 64 크기의 청크와 퓨전된 Triton 커널을 사용하며, 역전파 과정에서는 게이트 정보를 포함한 벡터-자코비안 곱을 명시적으로 도출했다. 이는 Hopper 아키텍처 기반 GPU에서 WGMMA 레이아웃 제약을 준수하면서도 연산 성능을 최적화하기 위한 설계다. 결과적으로 롱컨텍스트 처리가 필요한 실무 환경에서 모델의 응답 속도와 자원 효율성을 동시에 확보할 수 있는 구체적인 경로를 제시하고 있다.

한국 AI 실무자를 위한 선형 어텐션 도입 및 구현 시사점

국내 개발 환경에서 온디바이스 AI를 구현할 때 가장 큰 병목은 고정된 메모리 내에서 롱컨텍스트를 어떻게 처리하느냐에 있다. Gated DeltaNet-2는 기존 선형 어텐션 모델들이 겪던 메모리 편집의 제약을 채널 단위 게이팅으로 해결한다. 실무자는 이 아키텍처를 통해 고정된 크기의 재귀 상태(Recurrent State)를 유지하면서도, 데이터 의존적인 삭제와 쓰기 연산을 분리해 정보 손실을 최소화할 수 있다. 특히 메모리 제약이 심한 엣지 디바이스 환경에서 롱컨텍스트 리트리벌 성능을 확보해야 하는 프로젝트라면 주목할 가치가 있다.

쿼리/키 경로와 밸류 경로가 분리된 형태가 아키텍처의 구체적인 구성이다. 쿼리 및 키 경로는 선형 투영(Linear projection) 이후 짧은 인과 컨볼루션(Short causal convolution), SiLU 활성화 함수, L2 정규화를 거친다. 반면 밸류 경로는 선형 투영과 짧은 컨볼루션, SiLU를 통과한다. 최종 출력은 RMS 정규화와 SiLU 출력 게이트를 적용해 안정성을 높였다. 이러한 구조는 연산 효율성을 극대화하며, 기존 Mamba 시리즈나 KDA(Kimi Delta Attention) 모델 대비 리트리벌 성능에서 유의미한 우위를 점한다. 실제 RULER 벤치마크에서 S-NIAH-3 기준 89.8의 점수를 기록한 것은 실무적 확장성을 입증하는 수치다.

기술 도입을 검토하는 팀은 공식 저장소(https://github.com/NVIDIA/)에 공개된 자원을 활용할 수 있다. 제공되는 Dockerfile과 학습 스크립트, 그리고 lit_gpt 모델 정의는 표준화된 환경 구축을 돕는다. 특히 1.3B 파라미터 규모에서 100B 토큰으로 학습된 모델은 범용적인 추론 성능을 보장한다. 하이브리드 구성 시 슬라이딩 윈도우 어텐션(SWA)을 결합하면, 재귀 모델의 긴 이력 압축 기능과 SWA의 정밀한 로컬 상호작용을 동시에 활용할 수 있다. 이는 한국어 자연어 처리 서비스에서 문맥 유지와 응답 정확도를 동시에 잡아야 하는 실무자에게 실질적인 대안이 된다.

실무 적용 시 유의할 점은 하드웨어 가속기와의 호환성이다. Hopper 아키텍처 GPU에서 퓨즈드(Fused) Triton 커널을 사용할 경우, WGMMA 레이아웃 제약으로 인해 워프(Warp) 할당에 주의가 필요하다. 또한, Gated DeltaNet-2는 채널 단위의 삭제 게이트(bt)와 쓰기 게이트(wt)가 각각 독립적으로 동작하므로, 기존 스칼라 게이트 기반 모델보다 정밀한 제어가 가능하다. 메모리 효율성과 성능 사이의 균형을 찾아야 하는 온디바이스 환경에서, 이 모델은 기존의 복잡한 KV 캐시 관리 방식을 대체할 수 있는 강력한 경량화 솔루션이다.