식탁 위에 놓인 음식을 스마트폰으로 촬영해 탄수화물 함량을 계산하는 방식은 당뇨병 환자들에게 일상적인 도구가 되었다. 하지만 동일한 사진을 동일한 AI 모델에 500번 반복해서 질문하면 매번 다른 수치가 도출된다. 이는 단순한 오차 범위를 넘어 실제 인슐린 투여량에 치명적인 영향을 미칠 수 있는 수준의 변동성이다.
4개 주요 모델의 2만 7천 회 반복 테스트 결과
연구팀은 OpenAI GPT-5.4, Anthropic Claude Sonnet 4.6, Google Gemini 2.5 Pro, Google Gemini 3.1 Pro Preview 등 4개 모델을 대상으로 테스트를 진행했다. 실제 음식 사진 13장을 각 모델에 500회 이상 입력하여 총 26,904회의 쿼리를 수행했다. 모든 테스트는 모델이 제공하는 가장 낮은 무작위성 설정(Temperature 0)에서 진행되었다. 프롬프트는 iAPS(자동 인슐린 전달 시스템을 위한 오픈소스 프로젝트)에서 사용하는 실제 운영 환경의 문구를 그대로 차용했다.
모델별 변동성과 임상적 위험도 비교
예전에는 AI가 사진을 분석해 하나의 숫자를 제시하면 사용자는 이를 그대로 신뢰했다. 이제는 모델마다 결과의 일관성이 극명하게 갈린다는 점이 확인되었다. 특히 빠에야 사진을 분석했을 때 Gemini 2.5 Pro는 55g에서 484g까지 탄수화물 추정치를 내놓았다. 이는 1:10 인슐린 탄수화물 비율(ICR) 기준으로 42.9단위의 인슐린 투여량 차이를 의미하며, 환자에게는 생명을 위협할 수 있는 수치다. 반면 Claude는 상대적으로 좁은 범위 내에서 결과값을 도출하며 높은 일관성을 보였다.
신뢰도 점수의 허구성과 시스템적 편향
개발자가 바로 체감하는 변화는 모델이 제공하는 신뢰도 점수(Confidence Score)의 무용성이다. 테스트 결과, 4개 모델 모두 음식 항목에 대해 0에서 1 사이의 신뢰도 점수를 출력했으나 이는 실제 정확도와 전혀 무관했다. Claude는 정확도가 낮을 때 오히려 더 높은 신뢰도를 보고하는 경향을 보였으며, Gemini 모델들은 80% 이상의 항목에서 0.9 이상의 높은 신뢰도를 고집했다. 이는 모델이 자신의 불확실성을 전혀 인지하지 못하고 있음을 뜻한다. 또한 모든 모델에서 공통적으로 나타난 시스템적 편향은 과대 추정이었다. GPT-5.4는 식사당 평균 1.2단위의 인슐린을 과다 투여하게 만드는 경향을 보였으며, 이는 하루 3회 식사 시 3.6단위의 누적 오차를 발생시킨다. Claude만이 유일하게 임상적으로 위험한 수준(5단위 이상 오차)의 결과를 단 한 번도 내놓지 않았다.
AI 기반의 영양 분석은 현재의 확률적 모델 구조상 임상적 안전성을 담보할 수 없는 단계에 머물러 있다.




