"90% 확신해도 틀린다" LLM 과신 잡는 캘리브레이션 3대 기법

GPT-4o-mini 오답 66.7%가 '고확신' 상태에서 발생

LLM은 매우 자신 있게 틀린 답을 내놓는 할루시네이션 현상을 보인다. GPT-4o-mini는 2025년 텍스트 분류 평가에서 오답의 66.7%를 80% 이상의 높은 확신도 상태에서 출력하며 전형적인 과신 패턴을 증명했다. 이는 모델의 내부 확률값이 실제 정답 가능성을 대변하지 못하는 미캘리브레이션(Miscalibration) 문제로 이어진다.

이러한 신뢰도 괴리는 특정 작업에 국한되지 않고 광범위하게 나타난다. 2024년 NAACL 설문 결과는 팩트 QA, 코드 생성, 추론 작업 전반에서 확신 점수가 실제 정답률과 일치하지 않고 발산하는 현상을 확인했다. 전문 지식이 필요한 생물 의학 분야 모델들의 경우 평균 캘리브레이션 점수가 23.9%에서 46.6% 수준에 머물며 실제 정확도와의 큰 격차를 보였다.

모델이 90%의 확신을 보였을 때 실제로 90%의 정답률을 기록해야 신뢰할 수 있는 모델이다. 하지만 현재의 LLM은 확신 점수가 높더라도 실제 정답률은 그 절반에도 못 미치는 경우가 빈번하다. 기업이 모델의 확신 점수를 기반으로 자동화 임계값을 설정할 경우, 고확신 오답이 그대로 사용자에게 전달되는 치명적인 리스크가 발생한다.

ECE 지표와 신뢰도 다이어그램을 통한 정량적 측정

업계는 모델의 신뢰도를 측정하기 위해 ECE(Expected Calibration Error, 기대 캘리브레이션 오차) 지표를 사용한다. ECE는 전체 예측값을 확신도 구간인 빈(bin)으로 나눈 뒤, 각 빈 내부의 평균 확신도와 관찰된 실제 정확도 사이의 차이를 계산하고 이를 빈 크기에 따라 가중 평균한다. ECE 값이 0에 수렴할수록 모델의 확신도가 실제 정확도와 일치하는 완벽한 교정 상태가 된다.

신뢰도 다이어그램(Reliability Diagram)은 가로축에 확신도를, 세로축에 정확도를 배치해 모델의 상태를 시각화한다. 완벽하게 교정된 모델은 대각선 위에 위치하지만, 과신 모델은 곡선이 대각선 아래에 배치되어 높은 확신도 대비 낮은 정확도를 보인다. 연구자들은 단일 수치인 ECE의 한계를 극복하기 위해 Brier score, 과신율, 신뢰도 다이어그램을 함께 사용할 것을 권고한다.

사후 교정(Post-hoc recalibration)은 모델이 내뱉는 가공되지 않은 확신 점수를 검증 데이터셋에 맞게 다시 매핑하는 과정이다. 고전적 머신러닝의 해결책인 이 방식은 별도의 검증 세트에서 단순 함수를 학습시켜 원시 점수를 더 정확한 확률값으로 변환한다. 이를 통해 모델의 확률값이 실제 정답 가능성을 정확히 반영하도록 강제한다.

템퍼러처 스케일링과 RLHF가 만든 과신 해결책

템퍼러처 스케일링은 소프트맥스 함수 적용 전 로짓 벡터를 스칼라 값 T로 나누어 확률 분포를 조절한다. T가 1보다 크면 분포가 평탄해지며 확신도가 낮아지고, T가 1보다 작으면 분포가 뾰족해지며 확신도가 상승한다. 이 기법은 단 하나의 파라미터만 추가하며 예측 값의 순위를 유지하고 계산 비용이 매우 낮다는 장점이 있다.

하지만 RLHF(인간 피드백 기반 강화학습)를 거친 모델은 입력값에 따라 과신 정도가 달라지는 '입력 의존적 과신' 특성을 보인다. GPT-3와 같은 모델은 구두 확신 작업에서 0.377 이상의 평균 ECE 점수를 기록했으며, 2025년 설문은 RLHF 튜닝 모델이 전반적으로 확신도를 과대평가함을 확인했다. 고정된 단일 T 값으로는 이러한 입력별 변동성을 모두 해결할 수 없다.

적응형 템퍼러처 스케일링(ATS)은 고정된 T 대신 토큰 레벨의 은닉 특징(hidden features)을 사용해 개별 템퍼러처를 직접 예측한다. ATS는 지도 미세 조정(SFT) 데이터셋을 통해 학습되며, 작업 성능 저하 없이 캘리브레이션 성능을 10~50% 향상시켰다. RLHF 튜닝 모델 환경에서 ATS는 기존 템퍼러처 스케일링보다 강력한 성능 기준점이 된다.

플랫 스케일링과 아이소토닉 회귀의 성능 비교

플랫 스케일링(Platt Scaling)은 `p = σ(A·s + B)` 형태의 시그모이드 함수를 사용하여 두 개의 파라미터 A와 B를 학습한다. 이 방식은 구조가 단순해 적은 양의 검증 데이터로도 빠르게 학습할 수 있어 데이터 효율성이 높다. LLM 생성 코드의 확신도 연구에서 플랫 스케일링은 미교정 점수보다 더 정교한 출력값을 생성했다.

아이소토닉 회귀(Isotonic Regression)는 PAVA(Pool Adjacent Violators Algorithm)를 통해 비모수적 계단형 매핑을 생성한다. 특정 함수 형태를 가정하지 않으므로 신뢰도와 정확도의 관계가 시그모이드 형태가 아닐 때 더 유연하게 대응한다. 이러한 적응성 덕분에 실증적 비교에서 아이소토닉 회귀는 플랫 스케일링보다 우수한 성능을 보이는 경향이 있다.

실제 Random Forest 모델 테스트 결과, 신뢰도 점수는 미교정 상태 0.8268에서 플랫 스케일링 적용 시 0.9551, 아이소토닉 회귀 적용 시 0.9660으로 상승했다. 본페로니 교정을 거친 t-검정 결과, 아이소토닉 회귀는 α = 0.003 수준에서 ECE와 Brier score 모두 플랫 스케일링을 통계적으로 유의미하게 앞섰다.

데이터 규모와 모델 특성에 따른 교정 기법 선택 기준

교정 기법의 선택은 보유한 검증 데이터의 규모와 모델의 학습 이력에 따라 결정된다. 대규모 데이터셋을 확보한 환경에서는 유연성이 높은 아이소토닉 회귀가 최선이지만, 데이터가 부족한 환경에서는 과적합 위험이 큰 아이소토닉보다 파라미터 수가 적은 플랫 스케일링이 더 안정적인 추정치를 제공한다.

LLM의 특수한 구조는 추가적인 제약을 만든다. 생성 모델은 문장 시작과 끝보다 중간 단계에서 평균 확신도가 가장 낮게 나타나며, 많은 API가 전체 로짓 대신 top-k 토큰 확률만 제공해 고전적 교정 방식의 수정을 요구한다. 전역 시퀀스 레벨의 플랫 스케일링은 국소적 편집이 중요한 작업에서 너무 거칠게 작동하며, 고성능 모델에서는 오히려 적절 점수(Proper Scoring) 성능을 저하시키기도 한다.

특수 도메인에서는 다변량 접근법이 효과적이다. 다변량 플랫 스케일링(MPS)은 여러 샘플에서 생성된 하위 절 빈도 점수를 결합해 Text-to-SQL 작업에서 단일 점수 기반 교정보다 우수한 성능을 기록했다. 실무자는 RLHF 적용 여부에 따라 ATS를 검토하고, 데이터 규모에 따라 플랫 스케일링과 아이소토닉 회귀 중 하나를 선택하는 전략을 취해야 한다.