3,700만 단어 학습한 AI, 90년대 마이크로소프트 기술문서 완벽 재현

발표에서 확인된 핵심 사실

새로운 약이 개발되어 실제 환자에게 투약되기까지는 보통 수년의 시간이 걸린다. Benchling AI(생명과학 연구 데이터 관리 플랫폼)는 이 과정을 2배나 앞당길 수 있을 것으로 보인다. 데이터 검색부터 실험 설계, 분석까지 이어지는 과학적 여정의 각 단계에 AI 에이전트(스스로 판단해 작업을 수행하는 AI)를 배치해 속도를 높였기 때문이다.

개인 컴퓨터에서 AI를 돌리려면 하드웨어 제약이 크다. 이번 발표에서는 AMD Threadripper 9980X CPU와 32GB VRAM을 갖춘 Radeon AI Pro R9700 GPU 워크스테이션이 활용됐다. VRAM(그래픽 메모리) 용량이 넉넉해 양자화(모델 크기를 줄여 효율을 높이는 기술) 과정에서 발생하는 성능 손실을 최소화하며 모델을 실행했다.

최근 오픈 웨이트 모델(설계도와 가중치가 공개된 모델)은 최첨단 프론티어 모델과의 성능 격차를 3~6개월 수준으로 좁혔다. 구글은 Gemma 4를 통해 AI Core(온디바이스 AI 실행 환경) 위에 스킬 하네스(특정 기능을 실행하게 돕는 장치)를 구축해 기기 내부에서 에이전트 스킬을 구현했다. 엔비디아는 Nemotron 3 Ultra를 만들 때 멀티 티처 온 폴리시 증류(분야별 전문 모델의 지식을 하나로 합치는 기술) 기법을 썼다. 코드나 도구 사용 등 각 분야에 특화된 교사 모델을 먼저 훈련시킨 뒤 이를 하나로 합쳐 성능을 극대화했다.

모델 훈련과 테스트 환경도 하나로 합쳐졌다. 전직 엔비디아 엔지니어와 Llama 및 Qwen의 버그를 수정했던 형제가 개발한 Unsloth Studio는 모델 훈련뿐 아니라 로컬 채팅 기능까지 제공하며 Ollama(로컬 LLM 실행 도구)나 LM Studio와 경쟁한다. 특히 LM Studio는 ROCm(AMD GPU 가속 소프트웨어) 런타임을 기본 제공해 AMD 그래픽 카드를 쉽게 인식시킨다. 학습된 어댑터를 GGUF LoRA(압축된 모델 수정 파일) 형태로 변환해 Ollama에 등록하면 맥북 에어 같은 노트북에서도 벤치마킹이 가능하다.

5,500억 개의 파라미터를 가진 오픈 웨이트 모델

거대한 모델이 항상 정답일까? NVIDIA가 5,500억 개의 파라미터를 가진 오픈 웨이트(모델의 내부 가중치를 공개해 누구나 내려받을 수 있는 방식) 모델 Nemotron 3 Ultra를 출시했다. 이 모델은 에이전트 벤치마크에서 일부 조 단위 파라미터 모델보다 뛰어난 성능을 보이며, 기업이 온프레미스(자체 서버에 직접 설치하는 환경)에서 사용하거나 특정 작업에 맞게 미세 조정할 수 있도록 설계되었다.

NVIDIA는 모델과 함께 데이터셋과 제작 레시피(모델을 만드는 상세 과정)를 공개했다. LinkedIn이나 Pinterest 같은 기업들은 이런 오픈 웨이트 모델을 가져와 미세 조정함으로써 기존의 독점 모델(특정 회사가 소유하고 외부 공개를 하지 않는 모델)을 대체하고 있다. 파인튜닝(특정 데이터로 추가 학습시키는 과정)을 거치면 작은 LLM(거대 언어 모델)이 100배 더 큰 모델보다 나은 성능을 내거나 API 비용을 거의 제로로 줄일 수 있다.

실제 현장에서는 수개월이 걸리던 FDA 제출용 IND(임상시험용 신약 신청서) 보고서 작성 시간이 15~20분으로 단축되었다. 전체 파인튜닝 실험에 든 비용은 약 50달러였으며 기간은 하루 정도였다. AMD 시스템에서 구동한 Qwen 3.6 MoE(필요한 부분만 활성화해 효율을 높인 모델)는 초당 약 160토큰의 응답 속도를 기록해 사람이 읽는 속도를 훨씬 앞질렀다.

LiteRT(구 TensorFlow Lite)는 안드로이드 OS에 내장되어 CPU, GPU, NPU에서 모두 실행되는 런타임(모델을 실제로 구동시키는 소프트웨어)이다. 27억 대 이상의 기기를 지원하며 MediaPipe와 LiteRT LLM을 모두 지원한다. Unsloth Studio는 OS별 원라이너(한 줄의 명령어로 설치하는 방식) 명령어로 설치해 브라우저의 localhost:8888 포트로 접속해 사용한다.

로봇 학습 데이터 병목을 겨냥한 해법

한쪽은 모든 분야에서 승리하려 하고, 다른 한쪽은 오직 자기 사업의 논리에서만 이기려 한다. 범용 모델은 좁은 과학 분야의 질문에 엉뚱한 답을 내놓는 경우가 많지만, 적절한 데이터를 입히면 답변 품질이 급격히 올라간다. 특히 추론 기능을 갖춘 에이전트는 단순 채팅보다 훨씬 많은 토큰(AI가 읽는 글자 단위)을 소비해 비용 부담이 크다. 데이터 제어권과 프라이버시 문제까지 겹치며 로컬 환경의 AI 솔루션이 대안으로 떠올랐다.

1977년부터 2005년 사이에 발행된 3,700만 단어 이상의 마이크로소프트 문서 컬렉션을 가진 Bitsavers 데이터는 오래된 시스템의 톤앤매너를 재현하는 핵심 소스가 된다. Unsloth Studio(AI 모델을 미세 조정하고 데이터셋을 만드는 오픈소스 도구)를 쓰면 이런 학습을 개인 컴퓨터에서 오프라인으로 진행할 수 있다. AMD 시스템에서는 Ollama나 LM Studio 외에도 Transformers 라이브러리(AI 모델 구축 도구)와 PyTorch(AI 개발 프레임워크)를 통해 전문적인 파인튜닝(특정 목적에 맞게 모델을 재학습시키는 과정)이 가능하다.

기기에 사전 로드되어 최적화된 Gemma 4 E2B와 E4B 모델은 Gemini Nano의 기반이 되어 온디바이스 AI를 구현한다. 응답 지연 시간을 줄이고 개인정보를 보호하며 비용을 아끼려는 동기가 로컬 AI 도입을 가속한다. 고품질 데이터만 확보된다면 저렴한 비용으로 기업 전용 스타일을 준수하는 소형 모델을 구축할 수 있다.

온디바이스 AI 구현 방식은 시스템 레벨 GenAI와 앱 레벨

서비스가 무료라면 기업은 뒤에서 막대한 비용을 감당하고 있는 셈이다. 온디바이스 AI 구현 방식은 이 비용과 제어권의 균형에 따라 두 갈래로 나뉜다. 시스템 레벨인 AI Core(기기 기본 AI 엔진)는 Gemini Nano처럼 최적화된 모델을 미리 설치해 앱 용량을 늘리지 않는다. 반면 LiteRT LLM(소형 모델 실행 환경)을 쓰는 앱 레벨 방식은 개발자가 모델을 직접 배포해 더 세밀하게 기능을 맞추고 더 많은 기기에 보급할 수 있다.

API 비용이 고객에게 받는 돈보다 많아지거나 응답 속도가 느려질 때 개발자는 파인튜닝(미세 조정)을 고민한다. 특히 사실을 찾는 RAG(검색 증강 생성)보다 특정 말투나 스타일을 입히고 싶을 때 QLoRA(양자화 저랭크 적응) 기법을 쓴다. 모델의 기존 무게중심인 가중치를 고정하고 그 위에 작은 어댑터만 덧붙여 학습시키는 방식이다. 실제 학습 데이터를 정제할 때도 Python 스크립트와 gemma-4-26b 모델을 사용해 불필요한 내용을 쳐내며 약 8달러의 비용만 들여 효율적으로 준비했다.

더 복잡한 작업을 수행하는 에이전트 모델은 구조부터 다르다. Nemotron 3 Ultra는 전체 5,500억 개의 파라미터 중 550억 개만 사용하는 MoE(전문가 혼합) 구조를 채택해 코딩과 도구 사용에 특화했다. OpenClaw나 Hermes 같은 도구가 만든 작업 경로 데이터를 학습시켜, 오류가 나면 스스로 되돌아가 수정하는 능력도 갖췄다. Benchling AI는 14년 된 생명과학 데이터 플랫폼 위에 얹힌 지능형 레이어로, SQL 쿼리와 테이블 이름 임베딩 기술을 통해 과학자들이 실험 기록과 빠르게 상호작용하도록 돕는 에이전트 역할을 수행한다.

한국 AI 현장에서 볼 지점

어제까지는 가능성만 확인하던 프로토타입이 오늘 바로 상용 서비스 수준으로 올라오는 속도가 무서울 정도로 빨라졌다. Intercom은 파인튜닝(특정 데이터로 모델을 추가 학습시키는 것)을 통해 프론티어 API(최상위 성능의 AI 서비스) 대비 비용을 5분의 1로 낮추면서도 더 나은 결과를 얻었다. Pentress와 Decagon 역시 비즈니스 로직에 최적화된 모델을 통해 상당한 성능 향상을 기록했다. 제품이 성숙해지면 단순한 프롬프트 엔지니어링(명령어 최적화)을 넘어 비용과 효율을 잡는 파인튜닝으로 갈아타는 추세다.

과거에는 거대 서버 묶음과 전문 엔지니어가 필수였지만 이제는 서버리스 플랫폼(서버 관리 없이 코드만 실행하는 환경)으로 문턱이 낮아졌다. Modal 같은 서비스는 클러스터를 직접 관리하지 않고도 알고리즘을 제어하며 빠른 반복 학습을 가능하게 한다. Runpod에서는 시간당 6달러 미만으로 192GB 메모리를 가진 Nvidia B200 GPU를 빌려 Llama 3.1 8B나 Qwen 2.5 7B 모델을 학습시킬 수 있다. Unsloth Studio(모델 훈련 도구)는 데이터셋 생성을 요리법 같은 레시피 탭으로 구성해 누구나 쉽게 모델을 훈련시키도록 돕는다.

앱에 직접 내장해 AI Core에서 제공하지 않는 기능을 구현하려는 수요는 매개변수가 10억 개 미만인 Tiny LLM(초소형 언어 모델)으로 이어진다. NVIDIA는 Nemotron 3 Ultra를 통해 Anthropic Opus나 GPT, Gemini Pro 같은 최상위 폐쇄형 모델과 경쟁하며 Kimi K2.6 같은 모델처럼 복잡한 에이전트 능력을 갖추려 한다. 이미 에이전트 하네스(AI 에이전트 구동 체계)를 갖춘 기업은 강화 학습(시행착오를 통해 보상을 극대화하는 학습법)을 통해 모델이 서비스를 제공하는 방식을 더 정교하게 가르칠 수 있다.

기업마다 제각각인 내부 문서 스타일을 AI가 일관되게 맞추게 하는 일은 매우 어렵다. 하지만 90년대 MS 매뉴얼을 학습한 Qwen 2.5 7B 모델은 당시의 문서 구조와 톤앤매너를 완벽하게 재현하며 가능성을 보여줬다. 전체 가중치는 고정하고 작은 어댑터만 학습시키는 QLoRA 방식과 스타일 고착도를 결정하는 랭크 설정이 정교한 재현을 이끌었다.

데이터의 품질만 보장된다면 적은 비용으로도 기업 고유의 스타일을 완벽히 따르는 소형 모델을 구축하는 것이 현실적인 대안이 된다. 결국 AI의 정체성을 완성하는 것은 모델의 규모가 아니라 데이터의 밀도다.