맥북 프로의 Xcode(애플의 통합 개발 환경) 창에 복잡한 코드가 나열된다. 인터넷 연결을 끊었음에도 최신 코딩 모델이 실시간으로 다음 줄을 제안한다. 클라우드 서버의 응답을 기다리는 지연 시간은 사라졌다. 브라질 리우데자네이루에서 열리는 ICLR 2026(딥러닝 전문 국제 학술대회)의 애플 부스에서 벌어지는 장면이다.
M5 칩 기반 온디바이스 AI 데모와 연구진 참여
애플은 4월 23일부터 27일까지 개최되는 ICLR 2026에 스폰서로 참여한다. 전시관 204번 부스에서 두 가지 핵심 기술 데모를 운영한다. 첫 번째는 MLX(애플 실리콘 전용 오픈소스 배열 프레임워크)를 활용한 로컬 LLM(거대언어모델) 추론이다. M5 Max 칩이 탑재된 맥북 프로를 사용한다. 양자화(모델의 정밀도를 낮춰 연산 속도를 높이는 기술)된 최신 코딩 모델을 Xcode 환경 내에서 완전히 로컬로 구동한다. 애플은 MLX와 mlx-lm, 그리고 모델 가중치(Model Weights) 전체를 오픈소스로 공개했다.
두 번째 데모는 SHARP(이미지를 3D 데이터로 변환하는 기술)다. M5 칩이 탑재된 아이패드 프로를 사용한다. 사용자가 선택하거나 직접 촬영한 이미지를 처리해 3D 가우시안 포인트 클라우드(점들의 집합으로 3D 형상을 표현하는 방식)를 생성한다. 이번 행사에서 애플의 칼 본드릭(Carl Vondrick)이 일반 의장(General Chair)을 맡았으며, 알렉산더 토셰브(Alexander Toshev)와 블라드렌 콜툰(Vladlen Koltun)이 시니어 에어리어 체어(Senior Area Chairs)로 활동한다.
유진 은디아예(Eugene Ndiaye), 파르타쉬 파그리(Fartash Faghri) 등 다수의 연구원이 에어리어 체어로 참여했다. 아르노 블라스(Arno Blaas)는 ICBINB 2026(응용 딥러닝의 과제를 다루는 워크숍)의 공동 조직자로, 셜리 조우(Shirley Zou)는 재귀적 자기 개선 AI 워크숍의 공동 조직자로 이름을 올렸다. 아담 골린스키(Adam Golinski)를 포함한 40여 명의 연구원이 리뷰어로 참여해 학술적 영향력을 행사한다. 애플은 이 외에도 12월 2일부터 7일까지 샌디에이고에서 열리는 NeurIPS 2025(신경 정보 처리 시스템 학회)에 참여해 새로운 연구 결과를 발표할 예정이다.
엣지 AI로의 지형 변화와 수직 계열화 전략
이번 공개의 핵심은 AI의 실행 지점이 클라우드에서 엣지(Edge, 사용자 단말기)로 완전히 이동하고 있다는 점이다. 기존의 온디바이스 AI가 단순한 텍스트 요약이나 자동 완성에 그쳤다면, M5 Max는 최신 프론티어 모델을 로컬에서 돌릴 수 있는 연산력을 증명했다. 이는 데이터 프라이버시 문제를 해결하는 동시에 API 호출 비용을 제로로 만든다.
양자화된 프론티어 코딩 모델을 로컬에서 구동한다는 것은 개발 환경의 패러다임을 바꾼다. 기존에는 고성능 모델을 쓰기 위해 외부 API에 의존하며 코드 유출 위험을 감수해야 했다. 이제는 M5 Max의 통합 메모리 구조를 활용해 보안과 속도를 동시에 잡은 폐쇄적 개발 환경을 구축할 수 있다. 특히 MLX 프레임워크와 모델 가중치를 오픈소스로 푼 점은 전략적 포석이다. 개발자들이 애플 실리콘에 최적화된 모델을 직접 만들게 함으로써 하드웨어 판매량을 견인하는 락인(Lock-in) 효과를 노린다.
SHARP의 3D 가우시안 포인트 클라우드 구현 역시 파급력이 크다. 기존의 3D 스캐닝은 방대한 데이터 처리 시간과 전용 하드웨어가 필요했다. 이를 아이패드 프로라는 모바일 폼팩터에서 실시간에 가깝게 구현했다는 것은 M5 칩의 NPU(신경망 처리 장치) 성능이 임계점을 넘었음을 시사한다. 공간 컴퓨팅(Spatial Computing) 시대를 위한 데이터 입력 단계를 획기적으로 단축한 셈이다. 애플은 하드웨어-OS-프레임워크로 이어지는 수직 계열화를 통해 AI 실행의 효율성을 극대화하고 있다.
애플은 하드웨어의 물리적 한계를 소프트웨어 최적화로 돌파하며 AI의 주도권을 서버실에서 사용자의 손끝으로 옮겨왔다.




