브라질 리우데자네이루에서 열린 ICLR(인공지능 학습 표현 국제 학회) 2026 행사장 204번 부스에 사람들이 몰린다. Apple 실리콘(Apple의 자체 설계 칩)에서 MLX(Apple 실리콘 최적화 머신러닝 프레임워크)를 통해 로컬 LLM(거대 언어 모델)이 돌아가는 시연 장면이 핵심이다. 1초도 안 되는 시간에 단일 사진으로 3D 장면을 합성하는 기술이 화면에 출력된다.
ParaRNN과 SSM의 효율성 극대화
Apple은 이번 학회에서 ParaRNN(순환 신경망의 병렬 훈련 프레임워크)을 공개했다. RNN(순환 신경망)은 추론 시 메모리와 연산량이 적어 효율적이다. 하지만 연산의 순차적 특성 때문에 수십억 개의 파라미터로 확장하는 것이 불가능했다. Apple 연구진은 이를 해결해 기존 순차적 방식보다 665배 빠른 훈련 속도를 구현했다. 이를 통해 최초로 70억 개의 파라미터를 가진 고전적 RNN을 훈련시켰다. 성능은 기존 트랜스포머(데이터 간의 관계를 파악하는 표준 AI 아키텍처) 모델과 경쟁 가능한 수준이다. Apple은 연구 가속화를 위해 ParaRNN 코드베이스를 오픈소스로 공개했다.
상태 공간 모델인 SSM(State Space Models)에 대한 연구도 발표했다. Mamba(상태 공간 모델의 일종인 효율적 시퀀스 모델) 같은 SSM은 긴 문맥 처리와 생성에서 트랜스포머보다 효율적이다. 고정된 크기의 메모리와 선형적인 연산 복잡도가 장점이다. 하지만 모델의 메모리 용량이 제한되어 있어 작업 복잡도가 높아지면 성능이 저하되는 한계가 있다. CoT(단계별 사고 과정을 통해 추론하는 방식)를 사용해도 이 문제는 해결되지 않았다. Apple은 SSM이 외부 도구에 인터랙티브하게 접근할 수 있도록 설계했다. 도구 접근 권한과 문제 맞춤형 훈련 데이터를 결합하자 SSM은 임의의 문제 길이와 복잡도에서도 일반화 성능을 보였다. 산술, 추론, 코딩 작업에서 강력한 성능을 입증했다.
통합 멀티모달 모델 MANZANO의 설계
이미지 이해와 생성을 동시에 수행하는 통합 멀티모달 LLM(다양한 형태의 데이터를 처리하는 거대 언어 모델) MANZANO를 선보였다. 기존 오픈소스 모델들은 이미지 이해 능력과 생성 능력 사이에서 성능 트레이드오프(하나를 얻으면 하나를 잃는 관계)가 심했다. MANZANO는 하이브리드 비전 토크나이저(이미지를 AI가 이해하는 단위로 쪼개는 도구)를 통해 이 문제를 해결했다.
구조는 단순하다. 하나의 공유 비전 인코더가 두 개의 경량 어댑터로 데이터를 보낸다. 하나는 이미지 이해를 위한 연속 임베딩(데이터를 연속적인 벡터로 표현하는 방식)을 생성한다. 다른 하나는 이미지 생성을 위한 이산 토큰(데이터를 불연속적인 단위로 구분하는 방식)을 생성한다. 이들은 공유된 시맨틱 공간 내에서 작동한다. 통합 오토레그레시브(이전 데이터를 바탕으로 다음 데이터를 예측하는 방식) LLM이 텍스트와 이미지 토큰 형태의 고수준 의미를 예측한다. 이후 보조 디퓨전 디코더(노이즈를 제거해 이미지를 생성하는 디코더)가 이미지 토큰을 실제 픽셀로 변환한다. MANZANO는 통합 모델 중 SOTA(현재 기술 수준에서 가장 뛰어난 성능)를 달성했으며 특히 텍스트가 많은 평가에서 전문 모델과 경쟁 가능한 수준을 보였다.
Apple의 이번 행보는 클라우드 의존도를 낮추고 온디바이스 AI(기기 자체에서 구동되는 AI)의 효율성을 극대화하려는 포석이다. 트랜스포머의 연산 부하를 줄이는 RNN과 SSM의 부활은 하드웨어 제약이 심한 모바일 환경에서 결정적인 경쟁력이 된다. 이미지 이해와 생성을 하나로 묶은 MANZANO 역시 모델 크기를 줄이면서 기능을 통합해 기기 내 리소스 점유율을 낮추려는 전략이다. 이는 단순한 학술적 성과를 넘어 Apple 실리콘이라는 하드웨어 지형 위에 최적화된 소프트웨어 층을 쌓는 과정이다.
Apple은 모델의 크기가 아니라 하드웨어 최적화와 아키텍처 효율성으로 AI의 주도권을 가져오려 한다.




