T2 법칙으로 작은 AI 모델 데이터 늘려 정답률 높인다

AI 모델을 만드는 과정은 학생을 공부시키는 것과 비슷하다. 어떤 학생은 덩치가 크고 적당히 공부한다. 어떤 학생은 덩치는 작지만 아주 많이 공부한다. 어려운 수학 문제를 풀 때 누가 더 유리할까. 지금까지의 AI 개발 방식은 덩치 큰 학생을 만드는 데 집중했다.

T2 법칙과 100개 모델 실험 결과

미국 위스콘신-매디슨 대학교와 스탠퍼드 대학교 연구진이 T2(훈련과 테스트를 동시에 최적화하는 방법)라는 새로운 규칙을 발표했다. 이 규칙은 세 가지 숫자를 한꺼번에 계산한다. 모델의 크기인 N과 공부할 글자 조각의 양인 D 그리고 정답을 내기 위해 여러 번 시도하는 횟수인 k다.

연구진은 500만 개에서 9억 개의 뇌세포 같은 연결 고리를 가진 모델 100여 개를 만들어 실험했다. 결과는 명확했다. 모델 크기를 줄이는 대신 데이터를 훨씬 많이 공부시키고 정답을 여러 번 내놓게 하는 것이 가장 효율적이었다. 결국 작은 모델을 아주 많이 공부시키는 것이 정답률을 높이는 지름길이었다.

친칠라 법칙을 넘어선 효율적 학습법

기존에는 친칠라 법칙(모델 크기에 맞춰 공부할 데이터 양을 정하는 기준)을 따랐다. 이 법칙은 모델이 커지면 데이터도 그만큼만 늘리면 된다고 가르쳤다. 하지만 이 방식은 치명적인 약점이 있다. 모델이 너무 크면 정답을 한 번 내놓는 과정에서 돈과 시간이 너무 많이 든다.

T2 법칙은 이 지점을 파고든다. 모델을 작게 만들어 정답을 내놓는 비용을 낮춘다. 대신 과잉 학습(정해진 양보다 데이터를 훨씬 더 많이 공부시키는 것)을 통해 기초 체력을 키운다. 이렇게 하면 똑같은 돈을 쓰고도 더 많은 정답 후보를 만들어낼 수 있다. 결과적으로 여러 번 시도해서 하나라도 맞추는 pass@k(여러 번 답을 내놓게 해서 그중 하나라도 맞을 확률) 수치가 올라간다.

연구진은 훈련 단계와 정답을 내는 단계의 언어가 다르다는 점에 주목했다. 훈련 때는 손실(모델이 공부하면서 얼마나 틀리는지를 나타내는 숫자)이라는 지표를 쓴다. 하지만 실제 사용할 때는 정답을 맞혔느냐 아니냐가 중요하다. T2 법칙은 이 두 가지 서로 다른 언어를 하나의 공식으로 합쳤다. 덕분에 개발자는 예산에 맞춰 모델 크기와 데이터 양 그리고 시도 횟수를 정확하게 정할 수 있다.

코딩과 추론 작업에서의 비용 혁신

이 방식은 특히 에이전트 작업(AI가 스스로 계획을 세워 여러 단계를 거쳐 문제를 푸는 과정)에서 빛을 발한다. 에이전트 작업은 AI가 한 번에 답을 내지 않고 여러 번 생각하고 수정해야 한다. 이때 모델이 너무 크면 매 단계마다 비용이 너무 많이 들어 서비스 운영이 불가능해진다. 반면 T2 법칙으로 만든 작고 단단한 모델은 비용 부담 없이 여러 번 생각할 수 있다.

물론 모든 곳에 쓰이지는 않는다. 단순한 채팅(일상적인 대화를 나누는 것)처럼 지식이 중요한 일에는 효과가 적다. 하지만 코딩(컴퓨터 언어로 프로그램을 만드는 일)처럼 복잡한 추론이 필요한 일에는 강력하다. 기업 입장에서는 비싼 거대 모델을 빌려 쓰는 대신 작고 똑똑한 모델을 직접 만들어 쓸 수 있다. 투자 대비 효율이 극대화되는 지점이다. 이는 AI 서비스의 운영 비용을 획기적으로 낮추는 포석이 된다.

이제 AI 경쟁은 누가 더 큰 모델을 만드느냐의 싸움이 아니다. 정해진 예산 안에서 누가 더 효율적으로 생각하게 만드느냐의 싸움으로 바뀐다.

T2 법칙으로 작은 AI 모델 데이터 늘려 정답률 높인다

T2 법칙과 100개 모델 실험 결과

친칠라 법칙을 넘어선 효율적 학습법

코딩과 추론 작업에서의 비용 혁신

관련 기사