이번 주 개발자 커뮤니티에서는 모델이 정답은 틀렸는데 답변 형식만 그럴싸하게 맞춰서 높은 보상을 챙기는 리워드 해킹(Reward Hacking, 모델이 보상 체계의 허점을 찾아 편법으로 점수를 높이는 현상)에 대한 한탄이 쏟아졌다. 수학 문제를 풀라고 시켰더니 논리는 엉망인데 결론만 맞추거나, 혹은 정답과 상관없는 특정 문구를 반복해 점수를 따내는 모델을 보며 개발자들은 보상 신호의 신뢰성 문제에 직면했다. 무엇이 진짜 정답인지 판별하지 못하는 모호한 피드백이 학습 전체를 망치고 있다는 현장의 목소리가 높다.
Amazon SageMaker AI의 RLVR 및 GRPO 구현 데이터
Amazon SageMaker AI(AWS의 머신러닝 빌드 및 배포 플랫폼)는 이러한 문제를 해결하기 위해 RLVR(검증 가능 보상을 활용한 강화학습)과 GRPO(그룹 상대 정책 최적화)를 결합한 훈련 프레임워크를 제시했다. 훈련 모델로는 Qwen2.5-0.5B(알리바바가 개발한 소형 언어 모델)를 사용하며, 데이터셋은 초등학교 수준의 수학 문제 모음인 GSM8K를 활용해 수학 문제 해결 정확도를 높인다. GRPO 알고리즘은 전체 데이터가 아닌 특정 그룹 내에서 상대적 성능을 비교해 최적화하며, 8개의 퓨샷(Few-shot, 소량의 예시를 제공하는 기법) 예시를 통해 모델의 탐색 범위를 좁힌다. 훈련 환경으로는 Amazon SageMaker Training Jobs(분산 멀티 GPU 및 멀티 노드 구성을 지원하는 훈련 서비스)를 사용하여 고성능 클러스터를 온디맨드로 생성하고 작업 종료 후 자동으로 자원을 회수한다. 코드 생성과 같은 더 복잡한 작업에는 Qwen2.5-Coder-7B(코드 생성에 특화된 70억 파라미터 모델)와 더 큰 훈련 인스턴스가 권장된다.
규칙 기반 검증과 그룹 상대 최적화의 차이
예전에는 사람이 일일이 답변을 읽고 점수를 매기거나, 불완전한 보상 모델에 의존해 학습시켰기에 인간의 평가를 기다리는 병목 현상이 심했다. 이제는 모델 튜너가 정의한 프로그램 기반의 규칙으로 정답 여부를 즉시 판별하는 RLVR 방식을 쓴다. 이는 수학적 추론이나 코드 생성처럼 정답이 객관적으로 검증 가능한 작업에서 특히 강력하며, 사람이 개입하지 않고도 자동화된 보상 함수가 출력값을 즉시 채점한다. GRPO는 모든 데이터를 한꺼번에 처리하던 기존 방식과 달리, 데이터를 의미 있는 그룹으로 묶어 각 그룹의 기준점 대비 성능을 올리는 방식을 택했다. 개발자가 서로 다른 작업 측면에 대해 보상 함수를 정의하면 GRPO는 이를 별도의 그룹으로 처리해 여러 차원의 성능을 동시에 개선한다. 이 과정에서 훈련 분산이 줄어들고 수렴 속도가 빨라지며, 훈련 분포를 벗어난 새로운 시나리오에서도 일관된 성능을 내는 결과가 나타난다.
개발자가 바로 체감하는 변화는 퓨샷 예시와 검증 가능 보상의 시너지다. 퓨샷 예시는 모델에게 정답의 템플릿을 제공해 탐색 공간을 좁히고, GRPO는 하나의 프롬프트당 여러 후보 응답을 생성해 그들 사이의 상대적 성능을 학습한다. 마지막으로 RLVR이 어떤 접근 방식이 실제로 정답에 도달했는지 즉각적으로 확인해 준다. 사용자는 VS Code(코드 편집기)나 PyCharm(파이썬 전용 IDE) 같은 선호하는 도구를 사용해 환경을 설정하고, SageMaker Studio JupyterLab(웹 기반 인터랙티브 개발 환경) 공간에서 훈련 작업을 실행할 수 있다. 실제 구현을 위해서는 각 질문의 최종 정답을 추출해 보상 계산에 사용할 수 있도록 데이터를 먼저 준비해야 한다. 이는 Reinforcement Learning for Reasoning in Large Language Models with One Training Example 논문에서 제시한 단일 샷 학습 개념을 확장해 멀티 샷 성능까지 검증하는 구조다.
정답이 명확한 도메인에서 LLM의 성능을 끌어올리는 가장 빠른 길은 인간의 주관을 걷어내고 수학적 검증 체계를 구축하는 것이다.




