128GB.

이 수치는 고성능 맥(Mac) 컴퓨터의 메모리 용량을 말한다. 비유하자면 거대한 도서관의 책들을 한꺼번에 펼쳐놓고 볼 수 있는 아주 넓은 책상과 같다. 그런데 이 정도의 메모리만 있다면 이제 내 컴퓨터 안에서 초거대 AI 모델을 직접 돌리는 것이 가능해졌다.

DwarfStar 4와 DeepSeek v4 Flash의 결합

이번 주 개발자 커뮤니티에서는 DwarfStar 4(애플 실리콘 GPU를 활용한 로컬 AI 실행 도구)가 빠르게 확산되고 있다. 이 도구는 DeepSeek v4 Flash(성능과 속도를 최적화한 최신 AI 모델)를 로컬 환경에서 구동하는 데 최적화되었다. 특히 2/8비트 비대칭 양자화(데이터의 정밀도를 조절해 메모리 사용량을 줄이는 기술) 방식을 적용해 96GB 또는 128GB RAM만으로도 모델 실행이 가능하도록 설계되었다. 개발자는 GPT 5.5의 도움을 받아 단 일주일 만에 이 시스템을 구축했으며, 하루 평균 14시간의 고강도 작업이 투입되었다. 이 개발 과정의 강도는 과거 Redis(데이터를 빠르게 저장하고 읽는 메모리 기반 저장소) 초기 개발 당시의 작업량과 비슷할 정도로 치열했다.

로컬 AI의 기준을 바꾼 추론 방식

예전에는 내 컴퓨터에서 AI를 돌리려면 성능이 낮은 작은 모델을 써야 했기에 답변의 질이 떨어지는 경우가 많았다. 이제는 DwarfStar 4를 통해 온라인의 거대 모델과 거의 비슷한 수준의 경험을 내 하드웨어에서 누릴 수 있다. 고성능 Mac이나 DGX Spark(엔비디아의 AI 연산 서버) 같은 GPU in a box(GPU가 내장된 일체형 장비) 환경에서 최신 오픈 가중치 모델(모델의 내부 파라미터가 공개된 AI)을 가장 빠르게 돌리는 것이 이 프로젝트의 핵심이다. 단순히 하나의 모델만 쓰는 것이 아니라 질문의 성격에 따라 ds4-coding(코딩 전문 모델), ds4-legal(법률 전문 모델), ds4-medical(의료 전문 모델)처럼 특화된 모델을 갈아 끼우며 사용하는 방식이 도입되었다. 이는 클라우드 서비스인 Claude(Anthropic이 만든 AI 모델)나 GPT에 의존하던 무거운 작업들을 개인 장비로 옮겨올 수 있음을 뜻한다.

GPU in a box가 가져올 변화

사용자가 체감하는 가장 큰 변화는 벡터 스티어링(AI의 답변 방향을 세밀하게 조정하는 기술)을 통해 모델을 더 자유롭게 제어할 수 있다는 점이다. 개발팀은 앞으로 품질 벤치마크(모델의 성능을 객관적으로 측정하는 시험)와 코딩 에이전트(스스로 코드를 짜고 수정하는 AI 도구) 개발에 집중할 계획이다. 또한 자택 하드웨어 기반의 CI(지속적 통합, 코드 변경 사항을 자동으로 테스트하는 시스템) 환경을 구축하고, 더 많은 포팅(소프트웨어를 다른 환경에서 작동하게 옮기는 작업)을 진행할 예정이다. 마지막으로 여러 대의 장비를 연결해 계산하는 직렬 및 병렬 분산 추론(작업을 쪼개어 여러 GPU에서 처리하는 방식) 기능을 추가하여 로컬 AI의 한계를 넓히고자 한다.

AI가 단순한 웹 서비스의 영역을 넘어 개인의 하드웨어 속에 완전히 뿌리내리는 시점이 왔다.