한 연구원이 모니터 속의 손실 함수 그래프를 본다. 수백 번의 시도에도 그래프는 평평한 직선을 그린다. 모델이 어려운 수학 문제 앞에서 매번 같은 오답 경로를 밟으며 학습을 멈춘 상태다.

LoPE의 구현과 벤치마크 수치

LoPE(라틴어 텍스트 삽입 기법)가 arXiv(논문 사전 공개 사이트)를 통해 공개됐다. 강화학습(모델이 보상을 통해 스스로 학습하는 방식) 과정에서 프롬프트 맨 앞에 Lorem ipsum dolor sit amet 같은 무의미한 라틴어 문구를 삽입하는 방식이다. Qwen3-4B(알리바바가 개발한 소형 언어 모델)에 이 기법을 적용해 성능을 측정했다. 수학 벤치마크 평균 점수가 4.62점 상승하는 결과가 나왔다. 특히 AMC 2023(미국 수학 경시 대회)에서는 상대 성능이 22% 향상됐다. 기존의 학습 방식으로는 전혀 풀지 못했던 고난도 문제 50개를 LoPE를 적용한 모델만이 유일하게 해결했다.

제로 어드밴티지 해결과 추론 지형의 변화

예전에는 모델이 난제에 부딪히면 항상 동일한 추론 궤도를 밟았다. 모든 샘플이 정답을 맞히지 못하면 학습 신호가 0이 되는 제로 어드밴티지(모든 시도가 실패해 학습할 방향을 찾지 못하는 상태) 현상이 발생한다. LoPE는 여기서 무의미한 텍스트를 통해 모델의 기본 추론 궤도를 강제로 흔든다. 라틴어 문구는 언어의 형태를 띠고 있지만 실제 의미는 없다. 이 무의미함이 입력값의 분포를 교란해 모델이 평소와 다른 경로로 정답을 탐색하게 만든다. 탐색의 다양성이 확보되면서 닫혀 있던 정답 경로가 열리는 구조다.

개발자가 체감하는 변화는 학습 효율의 극대화다. 모델의 구조를 바꾸거나 막대한 양의 고품질 데이터를 추가하지 않고도 입력값의 변주만으로 성능을 끌어올렸다. 이는 정교한 알고리즘 수정보다 단순한 포석 하나가 더 큰 임팩트를 낼 수 있음을 보여준다. 특히 소형 모델이 겪는 추론의 한계를 입력 단계의 노이즈로 극복했다는 점이 핵심이다. 강화학습의 탐색 효율을 높임으로써 고비용의 인간 피드백 데이터 의존도를 낮출 수 있는 지형을 만들었다. 거대 모델의 전유물이었던 고난도 추론 능력을 소형 모델에서도 구현할 수 있는 가능성을 열어젖힌 셈이다.

무의미한 텍스트 한 줄이 거대 모델의 추론 장벽을 허무는 효율적인 포석이 됐다.