최근 대규모 언어 모델의 추론과 학습 속도를 높이기 위해 GPU 커널 수준의 최적화가 핵심 과제로 떠올랐다. 모델 구조나 하드웨어 성능 개선만으로는 한계에 도달하면서, GPU가 수학적 연산을 수행하는 가장 낮은 단계인 커널을 직접 설계하는 방식이 주목받고 있다. 대부분의 머신러닝 전문가는 FlashAttention(긴 문맥 처리를 위한 GPU 가속 라이브러리)이나 Triton(OpenAI가 개발한 파이썬 기반 GPU 프로그래밍 언어) 같은 기존 라이브러리에 의존하지만, 특정 하드웨어의 잠재력을 완전히 끌어내는 데는 한계가 존재한다.
Qwen 팀의 FlashQLA 라이브러리 공개와 기술적 배경
Qwen 팀은 FlashQLA를 MIT 라이선스로 공개하며 GPU 커널 최적화 영역에 진입했다. 이 라이브러리는 TileLang(GPU 연산을 효율적으로 컴파일하는 프레임워크)을 기반으로 구축되었으며, Qwen3.5 및 Qwen3.6 모델에 적용된 Gated Delta Network(지수 감쇠 게이트를 사용하여 문맥을 제어하는 선형 어텐션 구조)에 특화되어 있다. 기존의 표준 소프트맥스 어텐션은 시퀀스 길이가 길어질수록 연산량이 제곱으로 증가하는 O(n²) 복잡도를 가지지만, 선형 어텐션은 이를 O(n)으로 줄여 긴 문서나 대화 처리에 유리하다. FlashQLA는 이 Gated Delta Network의 연산 효율을 극대화하기 위해 설계되었다.
기존 Triton 커널과의 성능 비교 및 하드웨어 최적화
예전에는 Gated Delta Network 연산을 위해 Flash Linear Attention(FLA, 선형 어텐션 연산을 가속하는 라이브러리)을 주로 사용했으나, 이는 Triton으로 작성되어 NVIDIA Hopper(H100 및 H200 GPU 세대) 아키텍처의 특성을 완벽히 활용하지 못했다. 반면 FlashQLA는 Hopper 아키텍처의 워프그룹 수준 텐서 코어 연산과 비동기 데이터 파이프라인을 적극적으로 활용한다. 실제 NVIDIA H200 GPU 환경에서 벤치마크를 수행한 결과, FlashQLA는 기존 FLA Triton 커널 대비 순방향 연산에서 2~3배, 역방향 연산에서 2배의 속도 향상을 기록했다. 이는 모델 학습과 추론 전반에서 유의미한 성능 개선을 의미한다.
FlashQLA의 핵심 기술적 혁신과 성능 달성 원리
개발자가 체감할 수 있는 성능 변화는 세 가지 기술적 혁신에서 기인한다. 첫째, 게이트 기반의 자동 카드 내 문맥 병렬화(Intra-card Context Parallelism)를 구현하여 GPU의 스트리밍 멀티프로세서 활용도를 높였다. 둘째, 텐서 코어, CUDA 코어, 특수 함수 유닛(SFU)의 부하를 줄이는 방식으로 수학적 연산을 재구성하여 정밀도 손실 없이 연산 효율을 높였다. 셋째, TileLang을 통해 워프그룹 전문화(Warp-specialized kernels)를 구현했다. 이는 128개 스레드로 구성된 워프그룹이 데이터 이동과 텐서 코어 연산을 동시에 수행하도록 설계하여, 하드웨어의 이론적 최대 처리량에 근접하게 만든다. 이러한 최적화는 Qwen3.5와 Qwen3.6 모델의 다양한 헤드 구성 환경에서 일관된 성능 우위를 보여준다.
하드웨어의 물리적 한계를 돌파하는 것은 이제 모델 아키텍처를 넘어 커널 수준의 정교한 설계에서 결정된다.




