KAN 아키텍처의 FPGA 최적화와 2700배 속도 향상
이번 연구의 핵심은 KAN(Kolmogorov-Arnold Network, 가중치 대신 학습 가능한 활성화 함수를 사용하는 신경망) 아키텍처를 FPGA(Field-Programmable Gate Array, 프로그래밍 가능한 반도체)의 룩업 테이블(LUT, 입력 조합에 따른 출력값을 미리 저장해두는 메모리) 구조에 최적화해 구현한 것이다. 연구팀은 FPGA 2026에서 'KANELÉ'라는 LUT 기반 평가 방식을, ICML 2026에서는 B-스플라인(B-spline)의 지역성을 활용한 초고속 온라인 학습 방식을 각각 공개했다.
가장 먼저 확인된 성과는 추론 속도의 비약적 상승이다. KAN의 단변량 활성화 함수를 개별 LUT로 변환해 병렬로 계산하고 이를 가산기 트리(Adder Tree)로 합산하는 구조를 채택한 결과, 기존 KAN-FPGA 구현 대비 2700배의 속도 향상을 기록했다. 특히 주목할 점은 FPGA 내부에서 직접 가중치를 업데이트하는 '온라인 학습'의 구현이다. 5만 개 이상의 파라미터를 가진 모델에서도 순전파(Forward pass)와 역전파(Backward pass)를 포함한 전체 학습 과정을 서브마이크로초(1마이크로초 미만) 단위로 수행할 수 있음을 입증했다.
GPU의 처리량 중심 구조를 넘어선 초저지연 채택 흐름
GPU는 대량의 데이터를 병렬로 처리하는 처리량(Throughput)에 최적화되어 있지만, 명령어 스케줄링과 메모리 액세스 과정에서 발생하는 오버헤드로 인해 나노초 단위의 초저지연(Ultra-low latency) 요구사항을 충족하기 어렵다. 반면 FPGA는 신경망을 명령어 집합이 아닌 디지털 논리 회로로 직접 구현하므로 하드웨어 효율성을 극대화할 수 있다.
기존의 MLP(Multi-Layer Perceptron, 다층 퍼셉트론) 구조를 FPGA에 올릴 때는 행렬 곱셈으로 인한 자원 소모와 양자화 오차 관리가 큰 걸림돌이었다. 하지만 KAN은 다변수 함수를 직접 처리하는 대신 단변량 활성화 함수들의 합으로 표현한다. 이는 입력 차원이 늘어나도 LUT 엔트리가 지수적으로 증가하지 않는 구조적 이점을 제공하며, 불필요한 네트워크 구성 요소를 제거하는 프루닝(Pruning)을 훨씬 쉽게 만든다.
또한 KAN의 B-스플라인 기반 활성화 함수는 출력값이 계수 범위 내로 제한되는 유계성(Boundedness)을 가진다. 이는 고정 소수점 양자화 환경에서 가중치와 그래디언트의 범위를 예측 가능하게 만들어, 학습 안정성을 높이고 하드웨어 자원 사용량을 일정하게 유지하는 결과로 이어진다. 결과적으로 이번 연구는 양자 제어(Quantum Control)나 핵융합 제어와 같이 마이크로초 미만의 실시간 적응이 필수적인 특수 시장에서 KAN-FPGA 조합이 강력한 선택지가 될 수 있음을 보여준다.
AI 실무자가 관찰해야 할 하드웨어-알고리즘 공동 설계
한국의 AI 실무자와 개발자가 주목해야 할 지점은 모델의 파라미터 크기가 아니라 '지연 시간의 임계치'와 '하드웨어-알고리즘 공동 설계(Co-design)'의 가능성이다. 그동안 AI 가속화의 주류는 이미 설계된 모델을 어떻게 하면 GPU나 NPU에서 빠르게 돌릴 것인가에 집중되어 있었다. 하지만 이번 사례는 하드웨어(FPGA의 LUT)의 특성에 맞게 알고리즘(KAN의 단변량 함수)을 선택했을 때 성능이 얼마나 극적으로 변하는지를 보여준다.
특히 엣지 컴퓨팅이나 산업용 실시간 제어 시스템을 개발하는 기업이라면, 범용 GPU의 처리량보다 전용 회로의 응답 속도가 중요한 지점을 식별해야 한다. 모델을 소프트웨어에서 학습시켜 배포하는 정적 추론을 넘어, 현장에서 데이터가 들어오는 즉시 하드웨어 레벨에서 가중치를 업데이트하는 '온-디바이스 온라인 학습'의 구현 가능성이 열렸기 때문이다. 이제는 모델의 정확도뿐만 아니라, 타겟 하드웨어의 물리적 구조(LUT, Flip-flop 등)와 알고리즘의 수학적 특성이 어떻게 맞물리는지를 판단하는 것이 최적화의 핵심 기준이 될 것이다.




