매일 아침 개발자들이 클라우드 API에 의존해 대규모 언어 모델을 돌리던 풍경이 바뀌고 있다. 이번 주 브라질 리우데자네이루에서 열리는 ICLR 2026에서 애플이 M5 칩 기반 맥북 프로로 로컬 LLM 추론을 시연한다.

애플, ICLR 2026에서 M5 맥북 로컬 LLM 추론 시연

애플은 4월 23일부터 27일까지 리우데자네이루에서 열리는 ICLR 2026에 참가한다. 전시 시간은 4월 23일부터 25일까지 오전 9시 30분부터 오후 5시 30분(현지 시간 BRT)이며, 애플 부스는 #204번이다.

애플은 M5 Max가 탑재된 맥북 프로에서 MLX(애플 실리콘 전용 오픈소스 배열 프레임워크)를 사용해 온디바이스 LLM 추론 데모를 선보인다. 양자화된 최첨단 코딩 모델이 Xcode 네이티브 개발 환경 안에서 완전히 로컬로 실행된다. 전체 스택(MLX, mlx-lm, 모델 가중치)은 오픈소스로 공개된다.

SHARP 데모는 사전 녹화된 이미지 또는 사용자가 현장에서 촬영한 이미지를 M5 칩이 탑재된 아이패드 프로에서 처리해 3D 가우시안 포인트 클라우드를 생성한다. 이미지 선택부터 처리, 결과물 확인까지의 과정이 빠르게 진행된다.

칼 본드릭(Carl Vondrick)이 ICLR 2026 총회장을 맡았다. 알렉산더 토셰프(Alexander Toshev)와 블라들렌 콜툰(Vladlen Koltun)은 Senior Area Chair다. 애플 연구진 10명(Carl Vondrick, Eugene Ndiaye, Fartash Faghri, Jiatao Gu, Joao Monteiro, Miguel Angel Bautista, Philipp Krähenbühl, Pierre Ablin, Shuangfei Zhai, Yizhe Zhang, Zhe Gan)이 Area Chair로 활동한다.

Arno Blaas는 'I Can't Believe It's Not Better: Challenges in Applied Deep Learning (ICBINB) 2026' 워크숍의 공동 조직자이며, Nicholas Apostoloff와 Niv Sivakumar는 워크숍 리뷰어다. Shirley Zou는 'AI with Recursive Self-Improvement 2026' 워크숍의 공동 조직자다.

애플은 총 5편의 연구 논문을 발표한다. Murray Kang(UCSD), Yizhe Zhang, Nikki Kuang(UCSD), Nicklas Majamaki(UCSD), Navdeep Jaitly, Yian Ma(UCSD), Lianhui Qin(UCSD)의 공동 연구, Wei Liu(HKUST), Ruochen Zhou(HKUST), Yiyun Deng(HKUST), Yuzhen Huang(HKUST), Jaunting Liu(HLUST), Yuntian Deng(University of Waterloo), Yizhe Zhang, Junxian He(HKUST)의 공동 연구, Wenrui Ma(University of Pennsylvania), Ran Liu, Ellen Zippi, Chris Sandino, Juri Minxha, Behrooz Mahasseni, Erdrin Azemi, Ali Moin, Eva Dyer(University of Pennsylvania)의 공동 연구, Joao Monteiro, Anastasiia Filippova, David Grangier, Marco Cuturi의 연구가 포함된다.

예전에는 클라우드 GPU가 필수였지만, 이제는 노트북 하나로 양자화된 코딩 모델이 로컬에서 실행된다.

예전에는 대규모 언어 모델 추론을 위해 클라우드 GPU 인스턴스를 대여하거나 고가의 서버급 하드웨어가 필요했다. 이제 애플은 M5 Max 맥북 프로 하나로 Xcode 안에서 로컬 LLM 추론을 시연한다. MLX 프레임워크는 애플 실리콘의 통합 메모리 아키텍처를 활용해 CPU와 GPU 간 데이터 이동 없이 모델을 실행한다.

SHARP 데모는 기존의 NeRF(Neural Radiance Field, 신경망 기반 3D 장면 재구성 기술) 방식과 비교해 처리 속도가 크게 개선되었다. 사용자가 아이패드 프로 M5로 사진을 찍으면 즉시 3D 가우시안 포인트 클라우드로 변환된다. 이는 기존의 서버-클라이언트 분할 처리 방식과 달리 전 과정이 디바이스 내에서 완료된다.

애플의 ICLR 참여 방식도 달라졌다. 이전에는 주로 연구 논문 발표에 집중했지만, 이번에는 10명의 연구진이 Area Chair로 참여해 학계 의사결정에 직접 관여한다. 칼 본드릭이 총회장을 맡은 점은 애플이 학계 리더십을 강화하고 있음을 보여준다.

개발자가 바로 체감하는 변화는 M5 맥북 하나로 코딩 모델을 로컬에서 돌릴 수 있다는 점이다.

개발자가 바로 체감하는 변화는 M5 맥북 하나로 코딩 모델을 로컬에서 돌릴 수 있다는 점이다. 클라우드 API 비용이 사라지고, 네트워크 지연이 없으며, 데이터가 외부로 유출되지 않는다. MLX 스택이 오픈소스로 공개되어 연구 커뮤니티가 독립적으로 확장할 수 있다.

SHARP 기술은 아이패드 프로 M5 사용자에게 즉각적인 3D 스캐닝 경험을 제공한다. 건축, 게임, AR/VR 콘텐츠 제작 분야에서 현장 촬영만으로 3D 모델을 생성할 수 있게 된다. 이는 전문 장비 없이도 고품질 3D 데이터를 확보할 수 있는 길을 연다.

애플이 ICLR 2026에서 보여주는 방향은 명확하다. 클라우드 의존도를 낮추고, 자체 칩과 소프트웨어 스택으로 AI 추론을 로컬에서 처리하는 생태계를 구축하는 것이다.