캘리포니아 연방법원 증인석에 앉은 일론 머스크가 질문을 받았다. xAI(머스크가 설립한 인공지능 기업)가 Grok을 학습시킬 때 OpenAI의 모델을 이용해 지식을 추출하는 방식을 썼느냐는 물음이었다. 머스크는 이것이 AI 기업들 사이에서 일반적으로 행해지는 관행이라고 답하며, 본인들도 부분적으로 그렇게 했다고 인정했다.

xAI의 학습 방식과 업계 순위

일론 머스크는 이번 증언에서 xAI가 OpenAI의 모델을 활용해 Grok을 학습시켰음을 시인했다. 그는 현재 OpenAI의 CEO 샘 올트먼과 그레그 브록먼을 상대로 소송을 진행 중이며, OpenAI가 원래의 비영리 목적을 저버리고 영리 기업으로 전환되었다고 주장하고 있다. 머스크는 증언 과정에서 글로벌 AI 기업들의 성능 순위를 매기기도 했다. 그는 Anthropic이 1위이며, 그 뒤를 OpenAI, Google, 그리고 중국의 오픈 소스 모델들이 잇고 있다고 평가했다. xAI는 직원 수가 수백 명에 불과한 훨씬 작은 규모의 회사라고 덧붙였다.

데이터 수집의 효율을 높이는 증류 기술

예전에는 AI 모델 하나를 만들기 위해 수만 대의 GPU(그래픽 처리 장치)와 천문학적인 전기료를 쏟아부어 방대한 데이터를 처음부터 학습시켜야 했다. 이제는 이미 잘 만들어진 거대 모델에게 정답을 물어보고 그 답변을 다시 학습 데이터로 쓰는 방식이 쓰인다. 이를 증류(거대 모델의 지식을 작은 모델로 옮기는 기술)라고 부른다. 쉽게 말하면, 도서관의 모든 책을 직접 읽는 대신 일타 강사가 요약해 준 핵심 노트만 공부해서 빠르게 성적을 올리는 것과 비슷하다. 비유하자면 거대한 스승 모델의 지식을 작은 제자 모델에게 효율적으로 옮겨 심어, 적은 비용으로도 비슷한 성능을 내게 만드는 과정이다.

인프라 진입장벽의 붕괴와 대응

개발사들이 가장 우려하는 지점은 막대한 자본을 들여 구축한 컴퓨팅 인프라의 진입장벽이 무너지는 것이다. 수조 원을 들여 만든 모델의 능력을 경쟁사가 아주 적은 비용으로 복제할 수 있기 때문이다. 이는 서비스 이용 약관 위반일 가능성이 크지만, 법적으로 명확한 처벌 기준이 마련되지 않은 회색지대에 있다. 프런티어 모델 포럼(최첨단 AI 모델 개발사들의 협의체)이 중국 기업들의 이러한 시도를 막기 위해 공동 대응에 나선 이유다. 이들은 사용자가 모델에 의심스러운 대량 쿼리(데이터 요청)를 보내 모델의 내부 작동 원리를 파악하려는 시도를 차단하는 기술적 방어책을 마련하고 있다.

지식의 복제가 학습의 효율을 앞지르는 순간, AI 경쟁의 핵심은 데이터의 양이 아니라 데이터를 추출하는 기술력으로 옮겨간다.