인공지능이 갑자기 엉뚱한 답을 내놓거나 일을 제대로 처리하지 못한다. 분명히 똑똑한 모델을 사용했는데 왜 이런 일이 벌어지는 것일까.

InsightFinder 1500만 달러 투자와 고장 진단

InsightFinder(AI가 왜 틀렸는지 찾아내는 회사)가 1500만 달러(약 200억 원)의 시리즈 B(회사가 어느 정도 성장했을 때 받는 두 번째 큰 투자) 투자를 받았다. 이 회사는 AI 비서(스스로 생각해서 일을 처리하는 인공지능)가 실수하는 이유를 찾아내고 고치는 일을 한다.

한 미국의 큰 카드 회사는 사기 결제를 잡아내는 AI의 성능이 갑자기 떨어지는 현상을 겪었다. 분석 결과 원인은 AI 모델의 계산 실수가 아니었다. 서버의 캐시(자주 쓰는 데이터를 미리 저장해두는 임시 저장소)가 너무 오래되어 최신 정보를 반영하지 못한 것이 문제였다.

주목할 점은 AI의 실수가 모델 자체의 결함이 아니라 그것을 받치는 인프라(컴퓨터, 서버, 네트워크 같은 기본 시설) 때문에 발생했다는 사실이다. 결국 AI의 문제는 데이터와 모델, 그리고 서버 시설이 복잡하게 얽혀서 나타난다.

AI 전문가와 서버 관리자의 간극

보통 AI를 만드는 사람들은 인공지능의 원리는 잘 알지만 컴퓨터 서버가 어떻게 돌아가는지는 잘 모른다. 반면 SRE(서비스가 멈추지 않고 잘 돌아가게 관리하는 기술자)들은 서버는 잘 다루지만 AI 모델의 내부 작동 방식은 이해하지 못한다.

그러나 InsightFinder는 이 두 가지 영역을 동시에 분석한다. Datadog(시스템 상태를 감시하는 도구)나 New Relic(앱이 잘 돌아가는지 확인하는 도구) 같은 경쟁사들도 AI 관리 기능을 만들고 있다.

반면 InsightFinder는 비지도 학습(정답을 알려주지 않아도 스스로 규칙을 찾는 학습 방법)과 인과 추론(어떤 일이 왜 일어났는지 원인과 결과를 분석하는 방법)을 결합해 더 깊은 원인을 찾아낸다. AI의 성능 저하(모델 드리프트, 시간이 지나며 성능이 떨어지는 현상)를 잡으려면 서버의 상태까지 한꺼번에 연결해서 봐야 하기 때문이다. AI의 문제는 단순한 오답이 아니라 시스템 전체의 조화 문제다.

포춘 50 기업이 선택한 관리 능력

이 회사는 최근 1년 동안 매출이 3배 넘게 성장했다. UBS(스위스의 큰 은행)나 Dell(컴퓨터 만드는 회사) 같은 세계적인 기업들이 이미 이 서비스를 사용하고 있다.

특히 미국에서 돈을 가장 많이 버는 상위 50개 기업(포춘 50) 중 한 곳과 큰 규모의 계약을 맺으며 기술력을 인정받았다. 단순히 똑똑한 AI 모델을 가져다 쓰는 것보다, 그것이 실제 현장에서 고장 나지 않게 관리하는 것이 훨씬 어렵기 때문이다.

기업들은 이제 AI를 새로 만드는 것보다 이미 도입한 AI가 사고를 치지 않게 감시하는 것에 더 많은 투자를 하고 있다. AI의 실질적인 가치는 얼마나 똑똑한가가 아니라 얼마나 안정적으로 작동하는가에서 결정된다.

AI의 시대는 이제 만드는 단계를 넘어 관리하는 단계로 진입하고 있다. 고장 난 이유를 정확히 찾아내는 기술이 AI의 진짜 실력을 결정할 것이다.