90%.
Forum AI(AI 모델의 답변 정확도를 검증하는 기업)가 인간 전문가와 AI 판정관 사이에서 달성한 합의 수준이다.
숙련된 전문가의 판단 기준을 AI가 거의 완벽하게 복제해냈다는 의미다.
그런데 정작 우리가 매일 쓰는 챗봇들이 내놓는 정보의 질은 이 수치와 거리가 멀다.
고위험 주제 검증을 위한 전문가 포석
캠벨 브라운(전 메타 뉴스 책임자)은 17개월 전 뉴욕에서 Forum AI를 설립했다. 이 회사는 지정학, 정신 건강, 금융, 채용 같은 고위험 주제를 집중적으로 다룬다. 정답이 하나로 정해지지 않은 모호하고 복잡한 영역에서 AI가 어떻게 반응하는지 평가하는 것이 핵심이다. 벤치마크 설계를 위해 나이얼 퍼거슨, 파리드 자카리아, 토니 블링컨 전 국무장관, 케빈 매카시 전 하원 의장, 앤 뉴버거 전 백악관 사이버 보안 책임자 등 각 분야의 최정상급 전문가들을 영입했다. 이들이 설계한 기준을 바탕으로 AI 판정관을 훈련시켜 대규모 모델 평가를 수행한다. 작년 가을에는 Lerer Hippeau(초기 단계 투자 전문 벤처캐피털)가 주도한 300만 달러 규모의 투자를 유치하며 사업 기반을 다졌다.
정답 중심 평가에서 책임 중심 검증으로의 전환
개발자들이 모델의 성능을 측정할 때 주로 사용하던 벤치마크는 정답이 정해진 수학이나 코딩 문제였다. 이제는 정답이 없는 영역에서 발생하는 미세한 오류와 편향성을 잡아내는 방향으로 기준점이 이동하고 있다. Gemini(구글의 생성형 AI 모델)가 중국과 전혀 상관없는 주제의 답변을 내놓으면서 중국 공산당 웹사이트의 정보를 인용하는 사례가 대표적이다. 대부분의 모델에서 공통적으로 나타나는 좌편향적 정치 성향이나 맥락 누락, 상대의 주장을 왜곡하는 허수아비 공격 같은 오류들이 새로운 검증 대상이 됐다.
기업이 AI를 도입할 때 체감하는 리스크는 법적 책임으로 이어진다. 신용 결정, 대출, 보험, 채용 등 민감한 분야에 AI를 사용하는 기업들은 단순한 효율성보다 정확한 결과값에 집착한다. 잘못된 AI 답변이 곧바로 법적 소송이나 규제 위반으로 이어지기 때문이다. 현재의 컴플라이언스(법규 준수) 시장은 형식적인 체크리스트 감사에 의존하고 있다. 뉴욕시가 AI 채용 편향성 감사법을 통과시켰을 때, 실제 위반 사항의 절반 이상이 감사를 통과해 발견되지 않았다는 사실이 이를 증명한다. 단순한 일반론적 접근이 아니라 도메인 전문가의 깊은 이해가 필요한 엣지 케이스(예외적인 상황) 검증이 필수적인 이유다.
실리콘밸리의 빅테크 리더들은 AI가 암을 치료하고 세상을 바꿀 것이라고 말한다. 하지만 일반 사용자가 챗봇에 기본 질문을 던졌을 때 돌아오는 것은 여전히 저품질의 정보와 오답인 경우가 많다. 정보의 흐름이 AI라는 단일 깔때기로 모이는 상황에서 정확성에 대한 우선순위가 밀려나 있다는 지적이다. Forum AI는 이러한 신뢰의 간극을 비즈니스 기회로 보고 있다. 단순한 성능 측정을 넘어 기업이 안심하고 사용할 수 있는 신뢰 계층을 구축하려는 전략이다.




