Apple, 70억 파라미터 RNN 학습 665배 가속한 ParaRNN 공개

이번 주 개발자 커뮤니티에서는 RNN(순환 신경망, 데이터를 순차적으로 처리하는 인공지능 구조)의 부활을 알리는 소식이 뜨겁다. 그동안 RNN은 추론 속도가 빠르고 메모리 효율이 좋다는 장점에도 불구하고, 데이터를 순서대로 처리해야 하는 구조적 한계 때문에 거대 언어 모델(LLM) 학습에는 부적합하다는 평가를 받아왔다. 하지만 Apple 연구팀이 발표한 ParaRNN(비선형 RNN의 병렬 학습을 가능하게 하는 프레임워크)은 이러한 고정관념을 깨뜨리며 개발자들 사이에서 큰 관심을 끌고 있다.

665배의 속도 향상과 70억 파라미터 모델의 등장

Apple 연구팀은 ICLR 2026에서 구두 발표로 채택된 논문을 통해 ParaRNN의 구체적인 성능 지표를 공개했다. 이 프레임워크는 기존의 순차적 학습 방식과 비교했을 때 학습 속도를 665배까지 끌어올리는 성과를 보였다. 이러한 효율성 덕분에 연구팀은 트랜스포머(Transformer, 현재 대부분의 LLM이 사용하는 병렬 처리 기반 아키텍처)와 경쟁할 수 있는 성능을 갖춘 70억 파라미터 규모의 고전적 RNN을 처음으로 학습시키는 데 성공했다. 연구팀은 효율적인 시퀀스 모델링 연구를 가속화하기 위해 ParaRNN 코드베이스를 오픈소스로 공개했다.

선형 제약에서 벗어난 비선형 RNN의 병렬화

예전에는 RNN의 추론 효율성을 유지하면서 학습 속도를 높이기 위해 RNN의 구조를 단순화하는 방식이 주로 쓰였다. Mamba(선택적 상태 공간 모델, 데이터를 효율적으로 압축하여 처리하는 기술)와 같은 모델들은 RNN의 재귀 관계를 선형으로 단순화하여 병렬 연산이 가능하도록 만들었다. 하지만 이러한 선형화는 모델의 표현력을 제한한다는 치명적인 단점이 있었다. 이제는 뉴턴의 방법(비선형 방정식을 반복적인 선형 근사로 해결하는 수치 해석 기법)을 도입하여 이 문제를 해결했다. 연구팀은 RNN을 순차적인 단계의 체인이 아니라 하나의 거대한 방정식 시스템으로 재정의했다. 이를 통해 비선형성을 국소 미분값인 자코비안(Jacobian, 다변수 함수의 변화율을 나타내는 행렬)을 사용해 선형화하고, 이를 선형 상태 공간 모델(SSM) 형태로 변환하여 병렬로 해결하는 방식을 택했다.

개발자가 체감하는 학습 효율의 변화

개발자가 바로 체감하는 변화는 학습 시간의 획기적인 단축이다. 연구팀은 GRU(게이트 순환 유닛, RNN의 일종으로 정보의 흐름을 조절하는 구조)와 LSTM(장단기 기억 네트워크, 긴 문맥을 기억하기 위해 설계된 RNN의 일종) 모델에 이 방식을 적용했을 때, 단 3번의 반복만으로도 순차적 학습과 동일한 수준의 은닉 상태 진화를 구현할 수 있음을 확인했다. 이는 복잡한 비선형 RNN의 성능을 유지하면서도 학습 시간은 대폭 줄일 수 있음을 의미한다. ParaRNN은 원칙적으로 모든 RNN 구조에 적용 가능하며, 특히 자원 제약이 있는 환경에서 LLM을 배포해야 하는 개발자들에게 새로운 아키텍처 선택지를 제공할 것으로 보인다.

RNN의 순차적 병목 현상을 수학적 근사로 돌파한 이번 시도는 거대 모델 학습의 새로운 경로를 제시했다.

Apple, 70억 파라미터 RNN 학습 665배 가속한 ParaRNN 공개

665배의 속도 향상과 70억 파라미터 모델의 등장

선형 제약에서 벗어난 비선형 RNN의 병렬화

개발자가 체감하는 학습 효율의 변화

관련 기사