NVIDIA NVFP4, 4비트 사전학습으로 10조 토큰 돌파하며 효율 극대화

데이터센터 관제실의 늦은 밤, 수천 개의 GPU가 뿜어내는 열기 속에서 모니터는 FP8 정밀도로 학습 중인 거대 모델의 메모리 점유율을 붉은색 그래프로 가득 채운다. 엔지니어들은 단 1%의 메모리라도 더 확보하기 위해 배치 사이즈를 줄이고 파이프라인을 쪼개는 고단한 최적화 작업에 매달리며, 조금이라도 더 효율적인 수치 표현 방식을 찾기 위해 밤을 지새운다. 8비트조차 무겁게 느껴지는 초거대 모델의 시대, 메모리 부족은 곧 학습 속도의 저하와 비용의 상승으로 직결되기 때문이다.

NVIDIA가 최근 공개한 새로운 4비트 학습법, NVFP4(NVIDIA FP4)의 등장은 이러한 풍경을 곧 바꿀 전망이다. 그동안 4비트 정밀도는 수치 표현 범위가 너무 좁아 학습 도중 값이 튀어버리는 '발산' 문제 때문에 연구실 수준의 실험에 머물러 있었다. 하지만 NVIDIA는 Blackwell(블랙웰, NVIDIA의 최신 GPU 아키텍처) 텐서 코어의 하드웨어 가속을 활용해, 120억 개의 파라미터를 가진 모델을 무려 10조 개의 토큰으로 학습시키는 데 성공했다. 이는 공개된 기록 중 가장 긴 4비트 사전학습 여정이며, 정밀도를 절반으로 낮췄음에도 FP8과 거의 동일한 성능을 낼 수 있음을 입증한 사례다.

NVFP4와 12B 모델, 10조 토큰의 기록적 검증

10조 개의 토큰이라는 수치는 엔비디아가 이번 검증에서 가장 먼저 내세운 지표다. 토큰(Token)은 AI가 학습하는 텍스트의 최소 단위인데, 4비트 정밀도로 이 정도의 방대한 양을 사전학습시킨 사례는 지금까지 공개된 기록 중 가장 길다. 현재 초거대 언어 모델의 학습에서는 FP8(8비트 부동소수점)을 사용하는 것이 표준이지만, 이를 4비트로 낮추는 것은 오랫동안 풀리지 않은 연구 과제였다. 정밀도를 낮추면 숫자를 표현하는 범위가 좁아져 양자화 오차(Quantization Error, 데이터를 낮은 비트로 변환할 때 발생하는 값의 손실)가 커지기 때문이다. 특히 학습 기간이 길어질수록 이 작은 오차들이 눈덩이처럼 불어나 결국 모델의 성능이 무너지는 현상이 발생한다. 쉽게 말하면, 아주 얇은 붓으로 정교한 그림을 그리면서도 시간이 지나도 색이 바래지 않게 유지하는 고난도 작업을 성공시킨 셈이다.

네모트론-나노-12B-v2-베이스(Nemotron-Nano-12B-v2-Base) 아키텍처는 이번 검증에 투입된 핵심 모델이다. 이 모델은 총 62개의 블록으로 이루어져 있으며, 6개의 셀프 어텐션(Self-Attention, 문맥 내 관계 파악 기능)과 28개의 FFN(Feed-Forward Network, 데이터 특징 추출망), 그리고 28개의 맘바-2(Mamba-2, 선형 시간 복잡도를 가진 효율적 시퀀스 모델)가 결합된 하이브리드 구조다. 비유하자면, 전체 문맥을 꼼꼼하게 훑는 정밀 분석가와 핵심만 빠르게 처리하는 속독가가 한 팀으로 움직이는 설계도와 같다. 120억 개의 파라미터를 가진 이 거대 모델을 4비트라는 극도로 낮은 정밀도로 학습시키면서도, 서로 다른 연산 방식이 섞인 하이브리드 구조의 안정성을 유지했다는 점이 이번 실험의 핵심적인 기술적 성과다.

8비트 방식과 비교했을 때 실제 성능 수치는 놀라울 정도로 근접했다. 전문 지식 측정 지표인 MMLU-Pro 5-shot 테스트 결과, NVFP4(엔비디아 4비트 부동소수점)를 적용한 모델은 62.58%의 정확도를 기록했다. 이는 업계 표준인 FP8 베이스라인 모델이 기록한 62.62%와 비교해 단 0.04%포인트 차이에 불과한 수치다. 정밀도를 절반으로 낮춰 메모리 사용량과 계산 비용을 획기적으로 줄였음에도 불구하고, 결과물인 지능 수준은 사실상 동일하게 유지했다는 뜻이다. 이러한 성과는 엔비디아 트랜스포머 엔진(NVIDIA Transformer Engine, 딥러닝 모델의 연산 효율을 극대화하는 소프트웨어 라이브러리)을 통해 구현되어, 이론적인 가능성을 넘어 실제 하드웨어 환경에서의 적용 가능성을 명확히 뒷받침했다.

E2M1 포맷과 2단계 스케일링: 정밀도를 지키는 4비트의 마법

단 4비트라는 극도로 제한된 공간에 숫자를 구겨 넣는 것이 NVFP4(NVIDIA Floating Point 4)가 사용하는 E2M1 포맷의 특징이다. 구체적으로는 부호(Sign) 1비트, 지수(Exponent) 2비트, 가수(Mantissa) 1비트로 구성되는데, 이 조합으로 표현 가능한 값은 ±0, ±0.5, ±1, ±1.5, ±2, ±3, ±4, ±6까지 단 8가지뿐이다. 쉽게 말하면 아주 촘촘한 눈금이 있는 정밀한 자가 아니라, 듬성듬성 몇 개의 표시만 그려진 아주 짧은 자와 같다. 표현할 수 있는 숫자의 가짓수가 너무 적다 보니 실제 값과 저장된 값 사이에 간극이 생기는 양자화 오차가 발생하며, 이는 수조 개의 토큰을 학습해야 하는 거대언어모델의 정밀도를 심각하게 훼손하는 원인이 된다.

엔비디아는 이 좁은 표현 범위를 극복하기 위해 마이크로스케일링(Microscaling, 작은 단위의 숫자 묶음을 조정하는 방식) 기법의 설계를 완전히 바꿨다. 가장 먼저 손댄 것은 데이터 묶음인 블록 크기다. 기존에는 32개의 요소가 하나의 스케일 팩터(Scale Factor, 값의 범위를 조정하는 계수)를 공유했지만, 이를 16개로 절반가량 줄였다. 비유하자면 한 명의 관리자가 32명의 학생을 한꺼번에 통제하던 것을 16명씩 나누어 더 세밀하게 관리하는 것과 같다. 동시에 블록 스케일 팩터의 포맷을 UE8M0에서 E4M3로 변경했다. UE8M0는 2의 거듭제곱 형태로만 값을 조절할 수 있어 정밀한 조정이 불가능하고 빈틈이 많았지만, E4M3는 훨씬 세밀한 수치 조정이 가능하다. 덕분에 각 블록의 절대 최대값인 amax를 4비트가 표현할 수 있는 최대치에 훨씬 가깝게 밀착시켜 매핑할 수 있게 되었다.

2단계 스케일링 구조는 정밀도를 완성하는 핵심적인 단계다. 먼저 전체 텐서(Tensor, 다차원 배열) 수준에서 FP32(32비트 부동소수점)라는 매우 정밀한 잣대로 전체적인 수치 범위를 잡고, 그 아래 단계에서 다시 E4M3 블록 스케일로 세부 범위를 조정하는 계층적 방식을 도입했다. 쉽게 말하면 광역 지도로 도시 전체의 좌표를 먼저 잡고, 그 다음 상세 지도로 특정 골목길의 위치를 정확히 찾아내는 과정과 비슷하다. 이러한 이중 장치 덕분에 각 블록 내에서 가장 큰 값인 amax는 최소 6.25%의 비율로 FP8(8비트 부동소수점) 수준의 높은 정밀도로 표현된다. 블록 크기가 16개이므로 그중 하나인 최대값이 정밀하게 유지되는 셈이다. 나머지 값들은 4비트로 저장되지만, 기준점이 되는 핵심 값들이 정밀하게 보존되면서 전체적인 계산 정확도가 FP8 수준에 근접하는 효과를 거둔다.

MXFP4 대비 36%의 토큰 효율과 Blackwell의 압도적 속도

BF16(Bfloat16, AI 학습용 표준 부동소수점 방식)보다 4배 빠른 연산 속도를 보여주는 것이 GB200 모델의 FP4 GEMM(일반 행렬 곱셈)이다. FP8(8비트 부동소수점)과 비교해도 약 2배의 속도 향상을 보여준다. 차세대 모델인 GB300으로 가면 격차는 더욱 극명해진다. BF16 대비 6배, FP8 대비 약 3배의 속도 향상을 기록하며 연산 병목을 획기적으로 줄였다. 여기에 메모리 점유율까지 FP8의 절반 수준으로 감소하면서, 한정된 GPU 메모리 안에 더 큰 모델을 올리거나 더 많은 데이터를 한 번에 처리할 수 있는 환경이 마련되었다.

학습의 질적인 효율에서도 단순히 하드웨어의 속도만 빨라진 것이 아니라 큰 차이가 난다. 80억 개 파라미터를 가진 8B 모델을 학습시킨 실험 결과, NVFP4는 1조 개의 토큰(AI가 학습하는 최소 데이터 단위)만으로 특정 손실값에 도달했다. 반면 기존의 MXFP4(마이크로스케일링 4비트 형식)는 동일한 수준의 성능을 내기 위해 1.36조 개의 토큰이 필요했다. 쉽게 말하면 MXFP4가 NVFP4보다 약 36% 더 많은 데이터를 읽고 학습해야 겨우 같은 수준의 정답률을 얻었다는 뜻이다. 데이터 수집과 학습 비용이 천문학적으로 들어가는 LLM(거대언어모델) 개발 환경에서 36%의 오버헤드(추가 비용)는 개발 기간과 비용을 결정짓는 결정적인 격차가 된다.

숫자를 표현하는 스케일링 방식의 정밀도가 이런 효율 차이를 만드는 근본적인 원인이다. 비유하자면 MXFP4는 눈금이 1, 2, 4, 8처럼 2의 거듭제곱으로만 매겨진 투박한 자를 사용하는 것과 같다. 아주 정밀한 수치를 재고 싶어도 눈금이 띄엄띄엄 있으니 근처의 숫자로 대충 반올림해서 표시해야 하며, 이 과정에서 실제 값과 표현 값 사이의 간극인 동적 범위의 낭비가 발생한다. 구체적으로 MXFP4가 사용하는 UE8M0(부호 없는 8비트 정수) 스케일은 2의 거듭제곱으로만 제한되어 있어 데이터의 미세한 변화를 담아내지 못하고 버리는 값이 많다. 반면 NVFP4는 E4M3(지수 4비트, 가수 3비트) 방식을 도입해 눈금을 훨씬 촘촘하게 설계했다. 덕분에 데이터의 손실을 최소화하며 더 적은 양의 토큰으로도 모델이 정답에 빠르게 수렴할 수 있는 정밀한 제어가 가능해진 것이다.

학습 안정화를 위한 4가지 장치: RHT부터 확률적 반올림까지

학습 초기 단계에서 모델이 발산하며 무너지는 현상은 모든 선형 레이어의 GEMM(General Matrix Multiply, 행렬 곱셈)에 기본 설정을 적용해 양자화할 때 나타난다. 이를 막기 위해 엔비디아는 Fprop(Forward propagation, 순전파), Dgrad(Data gradient, 데이터 그래디언트), Wgrad(Weight gradient, 가중치 그래디언트)라는 세 가지 선형 레이어 연산에만 NVFP4를 적용하고 네 가지 안전장치를 더했다. 먼저 선택적 고정밀도(Selective high precision) 방식을 도입했다. 전체 62개 블록 중 처음 2개와 마지막 8개, 즉 약 16%의 레이어를 BF16(Bfloat16, 16비트 부동소수점) 상태로 유지했다. 쉽게 말하면 공장의 입구와 출구처럼 민감한 구간은 고해상도로 관리하고, 중간 공정만 저해상도로 처리해 효율을 챙긴 셈이다. 특히 마지막 블록들은 FP4가 제공하는 범위보다 더 넓은 동적 범위가 필요하기 때문에 이 장치가 필수적이었다.

RHT(Random Hadamard Transforms, 랜덤 하다마르 변환)는 가중치 그래디언트의 튀는 값들을 제어하기 위해 적용되었다. Wgrad 입력에 16x16 하다마르 행렬과 랜덤 ±1 부호 벡터 곱셈을 수행하는 방식이다. 비유하자면 소금 덩어리가 뭉쳐 있는 곳을 골고루 흔들어 펴주는 것과 같다. 특정 값에 치우친 아웃라이어를 가우시안 분포로 넓게 퍼뜨려 수치적 불안정성을 제거했다. 여기에 2D 블록 스케일링(2D block scaling)을 더해 정밀도를 높였다. 기존에는 가중치를 1x16 블록으로 스케일링했지만, 역전파 과정에서 가중치 텐서가 전치(Transpose)되면 순전파 때와 다른 양자화 값이 생성되어 연산 체인이 깨지는 문제가 발생한다. 이를 해결하기 위해 가중치를 16x16 블록으로 스케일링하여 앞뒤 연산에서 동일한 양자화 표현을 유지하도록 설계했다.

그래디언트 텐서에 확률적 반올림(Stochastic rounding)을 적용해 체계적인 편향(Bias)을 없애는 것이 마지막 단계다. 일반적인 반올림은 특정 방향으로 오차가 누적되는 경향이 있지만, 확률적 반올림은 두 인접 값 사이의 거리에 따라 확률적으로 결정한다. 예를 들어 0.7이라는 값은 1이 될 확률이 70%, 0이 될 확률이 30%가 되는 식이다. 이 방식은 그래디언트에서는 효과적이지만 순전파 텐서에 적용하면 오히려 성능이 떨어지므로 오직 그래디언트 연산에만 제한적으로 사용했다. 실무 관점에서 이러한 장치들은 4비트 학습이 단순한 이론적 시도를 넘어 10조 토큰 규모의 거대 모델에서도 실제로 작동하게 만드는 핵심 동력이 된다. 정밀도 손실이라는 치명적인 약점을 수학적 변환과 선택적 유지라는 전략으로 상쇄하며 학습 안정성을 확보한 결과다.

한국 AI 실무자가 주목할 Blackwell 시대의 인프라 최적화

전체 학습 일정의 약 18%가 지난 8.2T(테라) 토큰 시점부터 전방향 패스(forward pass, 입력 데이터를 통해 예측값을 계산하는 과정)를 NVFP4에서 BF16(Bfloat16, 딥러닝에 최적화된 16비트 부동소수점 형식)으로 전환하자 상대 손실 오차가 1.5%에서 0.5%로 뚝 떨어졌다. 쉽게 말하면 학습 초기에는 가벼운 4비트 형식으로 빠르게 뼈대를 잡고, 정교함이 필요한 후반부에는 정밀도를 높여 마무리하는 전략이다. 비유하자면 밑그림은 거칠게 빠르게 그리고, 세부 묘사 단계에서만 고해상도 붓을 사용하는 것과 같다. 이러한 정밀도 전환 기법은 한정된 GPU 자원으로 최대 효율을 뽑아내야 하는 국내 AI 실무자들에게 매우 실질적인 비용 절감 방안이 된다. 특히 대규모 클러스터를 운영하며 전력 비용과 하드웨어 수급 문제로 고민하는 국내 기업 환경에서, 학습 단계별로 정밀도를 다르게 가져가는 전략은 단순한 최적화를 넘어 생존을 위한 필수 선택지가 될 가능성이 높다.

하이브리드 맘바-트랜스포머(Hybrid Mamba-Transformer, 기존 트랜스포머의 연산 효율을 개선한 맘바 구조를 결합한 형태) 구조를 도입해 효율성을 극대화한 결과도 검증되었다. 비교 대상이 된 FP8 베이스라인(baseline, 성능 비교의 기준점이 되는 모델)은 딥시크-V3(DeepSeek-V3) 방법론을 따랐으며, E4M3 요소와 128x128 가중치 블록을 사용했다. 여기서 가중치 블록이란 숫자를 묶어서 관리하는 단위인데, 128x128이라는 큰 덩어리로 묶어 처리함으로써 연산 효율을 높인 방식이다. 이 기준점과 비교했을 때 NVFP4 기반 모델은 연산 속도와 메모리 사용량에서 압도적인 이점을 가지면서도 모델의 지능 수준은 거의 그대로 유지했다. 인프라 최적화의 핵심은 무조건적인 고정밀도가 아니라, 필요한 곳에만 자원을 집중하는 선택적 정밀도 운용에 있음을 보여준다. 이는 하드웨어의 물리적 한계를 소프트웨어적인 정밀도 제어로 극복하는 전형적인 사례라고 볼 수 있다.

4비트 학습이 더 이상 실험실 수준의 시도가 아님을 실제 벤치마크 결과가 증명한다. 수학적 추론 능력을 측정하는 GSM8K CoT(Chain-of-Thought, 단계별 사고 과정을 유도하는 기법)에서는 92.27%를 기록하며 FP8의 89.08%를 오히려 상회했고, MATH 벤치마크에서도 81.48%를 기록해 FP8의 83.32%와 대등한 수준을 보였다. 이는 하드웨어 가속과 저정밀도 학습의 결합이 모델의 고도화를 방해하지 않으면서도 학습 비용을 획기적으로 낮출 수 있다는 확신을 준다. 국내 기업들이 거대언어모델(LLM, Large Language Model)을 구축할 때 블랙웰(Blackwell) 인프라의 특성을 활용해 정밀도를 유연하게 조절한다면, 데이터 센터 운영 비용을 줄이면서도 글로벌 수준의 성능을 확보하는 전략적 우위를 점할 수 있다. 결국 중요한 것은 하드웨어의 스펙 그 자체가 아니라, 그 스펙이 제공하는 저정밀도 연산 능력을 학습 스케줄에 어떻게 녹여내느냐 하는 실무적인 설계 능력이다.