우리가 AI에게 질문을 하면 AI는 아주 자신 있게 대답합니다. 하지만 가끔은 그럴듯하게 들리지만 실제로는 틀린 말을 할 때가 있습니다. 일상적인 대화라면 웃고 넘길 수 있지만 병원이나 은행처럼 아주 작은 실수도 용납되지 않는 곳에서는 이런 AI의 습관이 큰 문제가 됩니다. 정답인지 아닌지를 확실하게 증명할 수 없다면 무서워서 사용할 수 없기 때문입니다.

Amazon Bedrock의 수학적 정답 확인 기능

최근 Amazon Bedrock(AI 모델을 쉽게 만들고 관리하는 도구)에 Automated Reasoning(수학적으로 정답인지 확인하는 기술)이라는 새로운 기능이 추가되었습니다. 기존의 AI는 다음에 올 단어를 확률적으로 예측해서 문장을 만드는 방식이었습니다. 쉽게 말하면 가장 정답일 것 같은 답을 짐작해서 말하는 식입니다.

하지만 이번에 도입된 기술은 짐작이 아니라 수학을 사용합니다. AI가 내놓은 답이 미리 정해둔 규칙에 맞는지 수학 공식으로 하나하나 따져보는 것입니다. 이렇게 하면 AI가 단순히 비슷하게 대답한 것인지 아니면 정말로 규칙을 완벽하게 지켰는지를 수학적으로 증명할 수 있습니다. 이제 AI의 대답은 단순한 추측이 아니라 증명된 결과물이 됩니다.

짐작하는 AI와 증명하는 수학의 차이

그동안 많은 회사는 AI의 답이 맞는지 확인하기 위해 또 다른 AI를 채점자로 세웠습니다. 이를 LLM-as-a-judge(사람처럼 말을 하는 거대 인공지능 모델이 다른 AI의 답을 채점하는 방식)라고 부릅니다. 비유하자면 수학 문제를 푼 친구의 답안지를 다른 친구가 보고 느낌상 맞다고 말해주는 것과 비슷합니다.

하지만 이런 방식은 채점하는 AI조차 짐작으로 판단하기 때문에 완벽한 믿음을 주기 어렵습니다. 반면 수학적 검증은 계산기나 공식처럼 정확한 기준을 사용합니다. 보험금 지급 규칙이 10가지라면 AI의 답이 이 10가지 규칙을 모두 통과했는지 수학적으로 계산해서 보여줍니다. 만약 틀렸다면 어느 부분에서 왜 틀렸는지 정확한 위치를 짚어낼 수 있습니다.

8시간 걸리던 업무를 몇 분 만에 끝낸 사례

이 기술은 실제 현장에서 놀라운 변화를 만들고 있습니다. Amazon Logistics(아마존의 물류 배송 팀)는 전기차 충전소를 설치할 때마다 복잡한 지역 법규와 기술 규칙을 확인해야 했습니다. 예전에는 전문가가 서류를 일일이 대조하며 확인하는 데 8시간이나 걸렸습니다.

여기에 Claude(Anthropic이 만든 AI 모델)와 수학적 검증 기술을 합쳤습니다. AI가 서류에서 필요한 정보를 뽑아내고 수학 검증 도구가 규칙 위반 여부를 즉시 확인하게 만들었습니다. 그 결과 8시간이 걸리던 검토 시간이 단 몇 분으로 줄어들었습니다. 전문가들은 이제 단순한 대조 작업 대신 더 중요한 결정에만 집중할 수 있게 되었습니다.

전기차를 만드는 Lucid Motors(미국의 전기차 회사)도 비슷한 경험을 했습니다. 재무 예측 보고서를 만드는 데 몇 주가 걸렸는데 이를 AI와 수학 검증 시스템으로 바꾸자 1분도 안 되는 시간에 끝낼 수 있었습니다. 금융 규칙을 수학적으로 확인하는 층을 하나 더 얹었기 때문에 속도는 빨라지면서도 정확도는 훨씬 높아진 것입니다.

AI는 이제 단순히 말을 잘하는 단계를 넘어 수학적으로 정확한 답을 내놓는 도구로 진화하고 있습니다.