30억 파라미터의 반란, 거대 모델 꺾은 DharmaOCR의 '특화 전략'

Dharma가 구조화된 OCR(광학 문자 인식)을 위한 특화 소형 언어 모델인 DharmaOCR과 관련 벤치마크 및 논문을 공개했다. 이번 발표의 핵심은 모델의 크기가 곧 성능이라는 기존의 '스케일링 법칙'을 정면으로 반박하는 실증적 데이터에 있다. Dharma는 허깅페이스(Hugging Face, 오픈소스 AI 모델 공유 플랫폼)를 통해 모델과 벤치마크를 공개하며, 특정 도메인에 최적화된 소형 모델이 어떻게 거대 프런티어 모델을 압도할 수 있는지 증명했다.

가장 큰 모델이 가장 안전한 선택이라는 믿음은 그동안 엔터프라이즈 AI 전략의 정석으로 통했다. 성능이 파라미터 수에 비례한다는 가정이 지배적이었기에, 비용을 더 지불하더라도 최신 프런티어 API를 사용하는 것이 합리적인 선택으로 여겨졌다. 하지만 DharmaOCR의 결과는 이 공식에 균열을 낸다. 특정 작업에 정교하게 튜닝된 30억(3B) 파라미터 모델이 상용 API들의 성능을 뛰어넘었을 뿐만 아니라, 운영 비용까지 획기적으로 낮췄기 때문이다.

논의의 중심은 이미 '무조건 큰 모델'에서 '목적에 맞는 최적 모델'로 이동하고 있다. 특히 이번 벤치마크에서 나타난 성능 격차와 비용 효율성은 단순한 수치 이상의 의미를 갖는다. 이는 기업이 AI 모델을 도입할 때 고려해야 할 전략적 변수가 '규모(Scale)'에서 '특화(Specialization)'로 완전히 전환되어야 함을 시사한다.

30억 파라미터 모델의 등장과 DharmaOCR 벤치마크

브라질 포르투갈어 OCR을 대상으로 인쇄 문서와 수기 텍스트, 까다로운 법률 및 행정 기록까지 포함한 벤치마크 결과가 공개되었다. DharmaOCR은 그동안 업계가 믿어온 거대 모델의 절대적 우위를 정면으로 반박하며 30억(3B) 파라미터라는 소형 규모로 프런티어 모델들을 압도했다. 모델과 데이터셋은 Hugging Face에 공개되어 개발자들 사이에서 실시간으로 검증되고 있다. 그동안 기업들은 품질 저하를 감수하고 비용을 줄일 때만 소형 모델을 선택했지만, 이번 결과는 전략적 우선순위를 완전히 뒤바꾼다.

복합 점수에서 3B 특화 모델은 0.911을 기록하며 1위를 차지했다. 뒤를 이은 Claude Opus 4.6이 0.833, Gemini 3.1 Pro가 0.820, GPT-5.4가 0.750에 그쳤다. 구글 비전(0.686), 구글 도큐먼트 AI(0.640), GPT-4o(0.635), 아마존 텍스트랙트(0.618), 미스트랄 OCR 3(0.574) 순으로 밀려났다. 커뮤니티에서는 3B 모델이 2위인 Claude Opus 4.6과 8퍼센트포인트 가까운 격차를 벌렸다는 점에 주목한다. 파라미터 규모가 수십 배 차이 나는 프런티어 API들을 가볍게 제쳤다는 사실이 지금 개발자들 사이에서 뜨거운 논쟁거리다. 단순히 운이 좋았던 것이 아니라, 정밀하게 설계된 파인튜닝 파이프라인이 거대 모델의 범용성을 이겼다는 분석이 지배적이다.

운영 비용과 안정성 지표는 격차를 더 극명하게 보여준다. 3B 특화 모델은 Claude Opus 4.6 대비 백만 페이지당 운영 비용이 약 52배 낮았다. 성능은 더 높은데 비용은 압도적으로 저렴하다는 계산이 나오면서 조달 산식 자체가 바뀔 수준이라는 반응이다. 생산 안정성 측면에서도 텍스트 디제너레이션(Text Degeneration, 모델이 무한 루프에 빠져 사용할 수 없는 출력을 내놓는 현상) 비율이 0.20퍼센트로 가장 낮게 측정되었다. 이는 단순한 파라미터 숫자의 경쟁이 아니라 훈련 궤적을 실제 배포 작업에 얼마나 밀착시켰느냐는 맥락적 특화의 승리다. 거대 모델이 광범위한 데이터를 학습하며 파라미터를 분산시킬 때, 소형 모델은 좁고 깊은 도메인에 집중해 효율성을 극대화했다. 파라미터 수보다 훈련 데이터의 분포를 작업 대상에 얼마나 가깝게 맞췄는지가 성능의 핵심 변수로 작용했다.

SFT에서 DPO까지, '맥락적 특화'의 구현 방식

훈련 궤적의 밀도는 파라미터 숫자보다 더 중요한 논쟁 지점으로 떠올랐다. 단순히 거대 모델의 API를 호출하는 방식에서 벗어나, SFT(Supervised Fine-Tuning, 지도 미세 조정)를 통해 모델의 기본 체력을 특정 도메인에 맞게 끌어올리는 과정이 핵심이다. SFT는 모델이 정답에 가까운 출력 형식을 학습하게 하여 기초적인 성능 향상을 이끌어낸다. 하지만 커뮤니티에서는 SFT만으로는 부족하다는 반응이 지배적이다. 정답지를 외우게 하는 것과 실제 배포 환경에서 유연하게 대처하는 것은 전혀 다른 차원의 문제이기 때문이다. SFT가 모델에게 무엇이 정답인지를 알려준다면, 그다음 단계는 어떻게 답변하는 것이 더 나은지를 가르치는 과정으로 이어진다.

성능의 결은 DPO(Direct Preference Optimization, 직접 선호도 최적화)가 투입되면서 완전히 바뀐다. 모델이 무한 루프에 빠지거나 쓸모없는 답변을 반복하며 무너지는 텍스트 퇴행(Degeneration) 현상은 실제 서비스 배포 시 개발자를 가장 괴롭히는 고질적인 문제다. DPO는 사람이 선호하는 답변과 그렇지 않은 답변을 직접 비교 학습시켜 이 퇴행률을 획기적으로 낮춘다. 이번 실험에서도 SFT 단계보다 DPO를 거친 모델에서 퇴행률이 더 낮게 측정되었다는 점이 뜨겁게 논의되고 있다. 이는 단순한 벤치마크 수치를 넘어 프로덕션 환경에서의 운영 안정성이라는 실질적인 가치를 제공하며, 모델이 헛소리를 내뱉는 빈도를 물리적으로 줄이는 효과를 낸다.

효율성 싸움은 구현 방식에 대한 실험으로 더 구체화된다. 저차원 행렬만을 업데이트하는 LoRA(Low-Rank Adaptation, 저차원 적응) 방식과 모델 전체 가중치를 수정하는 Full Fine-tuning의 성능 차이를 면밀히 비교했다. 커뮤니티에서는 자원 효율성의 LoRA와 극한의 성능을 뽑아내는 Full Fine-tuning 사이에서 치열한 저울질이 일어난다. 여기에 AWQ-quantized(AWQ 양자화, 모델 가중치를 압축해 효율을 높이는 기법) 변체를 적용해 추론 비용까지 잡았다. 가중치를 압축하면서도 성능 하락을 최소화하는 AWQ 기법은 30억 파라미터라는 작은 체급의 모델이 거대 모델보다 훨씬 저렴하면서도 빠르게 작동하게 만드는 결정적인 장치가 된다.

훈련 궤적을 실제 배포 작업에 얼마나 밀착시켰느냐가 결국 핵심이다. 거대 모델이 광범위한 데이터를 학습해 일반적인 능력을 갖췄다면, 특화 모델은 좁지만 깊은 데이터 셋을 통해 특정 작업의 맥락을 완전히 체득한다. 개발자들은 이제 파라미터 규모라는 숫자 놀음보다 훈련 파이프라인의 정교함에 더 집중하고 있다. 특정 도메인에 최적화된 좁은 분포의 학습이 광범위한 분포의 학습보다 더 강력한 결과를 낸다는 사실이 데이터로 증명되었기 때문이다. 이는 모델의 크기가 아니라 훈련의 방향성이 성능을 결정한다는 패러다임의 전환을 의미하며, 작은 모델로도 충분히 거대 모델을 압도할 수 있다는 가능성을 보여준다.

0.911 vs 0.833, 프런티어 모델을 압도한 수치

추출 품질을 측정하는 컴포지트 스코어(Composite Score, 편집 거리 유사도와 n-gram 중첩도를 결합한 지표)에서 특화 3B 모델은 0.911을 기록했다. 이는 업계가 신뢰하던 프런티어 모델들의 성적을 가볍게 앞지른 수치다. 가장 근접한 성적을 낸 클로드 오퍼스 4.6(Claude Opus 4.6)이 0.833에 그쳤고 제미나이 3.1 프로(Gemini 3.1 Pro)는 0.820, GPT-5.4는 0.750을 기록했다. 1위와 2위의 격차만 약 8퍼센트 포인트에 달하는데 이는 비교 대상 모델들 사이에서 발생한 그 어떤 간격보다 넓다. 거대 모델이 당연히 더 똑똑할 것이라는 기존의 믿음이 수치 앞에서 무너지는 지점이다. 개발자 커뮤니티에서는 파라미터 규모가 성능의 절대적 기준이 아니라는 논쟁이 지금 뜨겁게 달아오르고 있다.

운영 비용의 격차는 더욱 극단적이다. 특화 3B 모델은 클로드 오퍼스 4.6 대비 약 52배 저렴한 비용으로 운영이 가능하다는 점이 확인됐다. 이는 단순히 비용을 조금 절감하는 수준이 아니라 기업의 AI 조달 산식 자체를 완전히 바꿔야 하는 수준의 차이다. 품질은 더 높으면서 비용은 압도적으로 낮은 이 기현상은 상용 API에 의존하던 기존 전략의 효율성에 강한 의문을 던진다. 여기에 실무자가 가장 민감하게 반응하는 생산 안정성 지표까지 더해졌다. 텍스트 퇴행률(Text Degeneration Rate, 모델이 자기 반복 루프에 빠져 사용할 수 없는 출력을 내놓는 비율) 측정 결과 특화 3B 모델은 0.20%라는 최저치를 기록하며 가장 안정적인 성능을 보였다.

가장 큰 모델을 선택하는 것이 가장 안전하다는 전제는 그동안 엔터프라이즈 AI 전략의 근간이었다. 캡플란의 스케일링 법칙(Kaplan's Scaling Laws, 모델 크기와 데이터, 연산량이 늘어날수록 성능이 예측 가능하게 향상된다는 이론)이 지배하던 시대였기에 무조건적인 스케일 업이 합리적인 선택으로 통했다. 하지만 이번 결과는 특정 도메인에 최적화된 학습 궤적이 파라미터의 양보다 더 결정적인 변수임을 증명한다. 범용적인 데이터를 넓게 학습한 거대 모델보다 좁지만 깊게 학습한 소형 모델이 실제 현장 작업에서 더 정교하게 작동한다는 사실이 데이터로 입증된 셈이다. 개발자들은 이제 거대 모델의 범용성보다는 정교한 파인튜닝(Fine-tuning, 사전 학습된 모델을 특정 데이터셋으로 추가 학습시켜 최적화하는 과정)을 통한 특화 전략이 실질적인 성능 우위를 점할 수 있다는 점에 주목하고 있다.

'가장 큰 모델'이라는 조달 기본값의 붕괴

파라미터 수는 기업들이 AI 모델을 조달할 때 가장 먼저 확인하던 지표였다. 파라미터가 많을수록 성능이 비례한다는 믿음이 지배적이었고, 예산만 허락한다면 시장에서 가장 거대한 프론티어 모델을 선택하는 것이 가장 안전한 기본값으로 통했다. GPT-4부터 Claude 3, Gemini 1.5에 이르기까지 거대 모델들이 주요 벤치마크를 휩쓰는 흐름이 수년간 이어지면서 규모의 경제는 업계의 정설이 되었다. 개발자들 사이에서도 굳이 작은 모델을 써서 품질 리스크를 감수하느니, 비용을 더 지불하더라도 검증된 최대 모델을 쓰는 것이 가장 합리적인 리스크 관리라는 분위기가 강했다.

최근 DharmaOCR의 벤치마크 결과가 공개되며 이 견고했던 공식이 빠르게 무너지고 있다. 정교한 파인튜닝 파이프라인을 거친 30억 파라미터(3B) 규모의 특화 모델이 Claude Opus 4.6 같은 거대 상용 API의 성능을 완전히 압도했기 때문이다. 구체적으로 추출 품질을 측정하는 복합 점수에서 특화 모델은 0.911을 기록한 반면, 2위인 Claude Opus 4.6은 0.833에 그쳤다. Gemini 3.1 Pro(0.820)나 GPT-5.4(0.750) 같은 최신 모델들도 그 뒤를 이었다. 1위와 2위의 격차는 약 8%포인트에 달하며, 이는 커뮤니티에서 모델 크기가 성능의 절대적 척도가 아니라는 논쟁을 촉발시키는 결정적 근거가 되었다.

비용과 안정성이라는 현실적인 지표는 실무자들이 더욱 주목하는 지점이다. 특화 3B 모델은 Claude Opus 4.6 대비 백만 페이지당 운영 비용이 약 52배나 저렴했다. 여기에 생성 AI의 고질적 문제인 텍스트 퇴행률(Text Degeneration Rate, 생성물이 자기복제 루프에 빠져 사용할 수 없게 되는 비율)은 0.20%로 가장 낮게 측정되었다. 결과적으로 고성능, 저비용, 고안정성을 동시에 달성하는 파레토 최적(Pareto Frontier) 지점에 도달한 것이다. 이는 모델의 절대적인 파라미터 수보다, 배포될 실제 작업의 분포와 모델의 훈련 궤적이 얼마나 밀접하게 일치하는가 하는 분포 일치(Distributional Alignment)가 훨씬 결정적인 변수임을 시사한다.

훈련 궤적이라는 내면적 정밀도로 AI 도입 전략의 핵심이 이동하고 있다. 범용 데이터를 넓게 학습해 파라미터를 분산시킨 거대 모델보다, 특정 도메인의 좁고 깊은 훈련 과정을 거쳐 작업 분포를 일치시킨 작은 모델이 현장에서는 훨씬 강력한 도구가 된다는 사실이 증명된 셈이다. 개발자들은 이제 무조건 큰 모델을 찾는 관성에서 벗어나, 서비스의 작업 특성에 가장 근접하게 훈련된 모델이 무엇인지, 혹은 어떻게 궤적을 수정할 것인지에 집중하고 있다. 규모의 경제가 지배하던 조달 시장이 특화의 경제로 빠르게 재편되는 현장이다.

한국형 문서 AI 실무자가 주목해야 할 'SLM 전략'

기존의 상식을 뒤집는 벤치마크 수치가 개발팀에 의해 공개되었다. 30억 개의 파라미터(매개변수)를 가진 소형 모델이 클로드 오퍼스(Claude Opus)나 GPT-5.4 같은 거대 프런티어 API를 성능으로 눌러버렸기 때문이다. 그동안 개발자 커뮤니티에서는 모델 크기가 곧 지능이라는 스케일링 로(Scaling Law, 모델 크기와 데이터량이 늘어날수록 성능이 향상된다는 법칙)가 절대적 진리로 통했다. 하지만 이번 결과는 특정 도메인에 특화된 SLM(소형 언어 모델)이 적절한 정렬 과정을 거치면 거대 모델보다 훨씬 정교한 결과물을 낼 수 있음을 증명했다. 특히 한국어처럼 문서 구조가 복잡하고 도메인 지식이 깊게 요구되는 환경일수록 이러한 특화 모델의 가능성은 더 커진다.

성능보다 비용과 안정성에 실무자들이 가장 뜨겁게 반응하고 있다. 3B 모델은 클로드 오퍼스 4.6 대비 백만 페이지당 운영 비용을 약 52배나 낮췄다. 고비용의 프런티어 API에 의존하던 구조에서 벗어나 자체 인프라 기반의 특화 모델을 운영할 때 얻는 경제적 이득이 압도적이라는 뜻이다. 여기에 텍스트 디제너레이션(Text Degeneration, 모델이 무한 루프에 빠져 쓸모없는 내용을 반복 생성하는 현상) 비율까지 0.20% 수준으로 낮추며 생산 안정성까지 잡았다. 한국의 기업용 문서 AI 환경에서도 단순히 API 호출 횟수를 줄이는 수준이 아니라, 자체 SLM 구축을 통해 비용 절감과 제어권 확보라는 두 마리 토끼를 잡아야 한다는 논의가 급물살을 타고 있다.

데이터의 밀도와 정렬의 정교함에서 승부가 갈린다. 단순히 범용 벤치마크 점수를 비교하는 것은 이제 의미가 없다. 한국어 OCR(광학 문자 인식)과 문서 이해 작업에서는 해당 도메인의 특성을 정확히 반영한 도메인 특화 벤치마크를 먼저 구축하는 것이 우선이다. 모델의 학습 궤적을 실제 배포될 작업에 얼마나 밀착시켰느냐가 성능을 결정짓는 핵심 변수이기 때문이다. SFT(지도 미세 조정)를 넘어 DPO(직접 선호도 최적화) 같은 정교한 정렬 단계를 거친 소형 모델은 불필요한 파라미터를 걷어내고 오직 정답에만 집중한다. 이제는 무조건 큰 모델을 찾는 경쟁이 아니라, 얼마나 밀도 높은 데이터를 통해 모델을 날카롭게 벼릴 것인가에 집중해야 한다. 관련 모델과 벤치마크는 https://huggingface.co/org/model 에서 확인할 수 있다.