법대 교수 75%가 선택한 정답, 정체는 AI였다

발표에서 확인된 핵심 사실

고도의 전문 지식이 필요한 법학 분야에서 인간 전문가의 판단은 대체 불가능한 영역으로 여겨졌다. 하지만 실제 테스트 결과는 정반대의 양상을 보였다. 스탠퍼드 법대(Stanford Law School)가 미국 법대 교수 16명을 대상으로 계약법 강의 튜터로서의 AI 성능을 검증한 결과, AI가 동료 교수의 답변보다 우위에 있다는 점이 수치로 증명됐다. 약 3,000건에 달하는 익명 비교 평가에서 AI는 75%의 승률을 기록하며 법대 교수들로부터 더 높은 평가를 받았다.

평가자들은 답변을 작성한 주체가 누구인지 모르는 블라인드 상태에서 AI의 응답을 선택했다. 이는 AI가 단순히 정보를 나열하는 수준을 넘어, 법대 교수들이 납득할 만한 수준의 논리와 답변 구조를 갖췄음을 보여준다. 전문가 집단이 동료의 답변보다 AI의 결과물을 압도적으로 선호했다는 점은 전문직 영역에서 AI가 도달한 판단 능력을 입증하는 구체적인 지표가 된다. 정답이 정해진 단순 지식 전달이 아니라 복합적인 추론이 필요한 영역에서도 AI의 효용성이 확인된 셈이다.

AI 튜터는 강의실 수업을 보완하는 고품질의 온디맨드(on-demand, 요청 시 즉시 제공) 지원을 통해 학습자의 전문가 가이드 접근성을 확대할 수 있다. 기존의 대면 수업 체계에서 벗어나 시간과 장소의 제약 없이 전문가 수준의 피드백을 받을 수 있는 환경이 조성된다는 점이 핵심이다. 다만 연구팀은 이러한 성능 확인이 곧바로 전면 도입으로 이어져서는 안 된다고 명시했다. 기술적 우위와는 별개로 책임감 있는 배포 방식에 대한 논의가 선행되어야 한다는 점을 강조하며 무분별한 확산에 경계심을 드러냈다.

AI 답변의 교육적 유해성 판단 비율이 인간 교수보다 현저히

전문 지식의 권위가 수십 년의 경력에서 모델의 업데이트 주기 단위로 빠르게 이동하고 있다. 교수들이 답변의 교육적 유해성을 직접 평가한 결과, 동료 교수가 작성한 답변의 12%가 유해하다고 표시되었다. 반면 AI 답변이 유해한 것으로 분류된 비율은 3.5%에 불과했다. 전문가 집단이 판단하는 교육적 안전성 기준에서 AI가 인간 교수보다 현저히 낮은 유해성 수치를 기록하며 실질적인 우위를 점한 결과다.

분석 대상에는 상용 튜터링 시스템(학습 보조 AI 서비스)과 Google의 NotebookLM(개인 맞춤형 AI 노트 서비스) 등 다양한 AI 모델의 성능이 포함되었다. 연구 과정에서 컨텍스트 제한으로 인해 AI의 답변 생성에 영향이 있었던 사례가 일부 확인되었다. 하지만 이러한 기술적 제약이 발생한 상황에서도 교수들은 인간이 작성한 답변보다 AI의 답변을 더 선호하는 경향을 보였다. 모델의 완결성보다 생성된 결과물의 실질적 효용성이 더 크게 작용했음을 보여준다.

단순한 정답 도출 능력을 넘어 교육적 유해성이라는 질적 기준에서 AI의 판단력이 인간 교수보다 더 안정적이라는 점이 확인되었다. 이는 전문직 영역의 AI 도입 시 단순한 정확도 수치를 넘어 전문가 수준의 세부 판단 기준을 충족하는지가 핵심 척도가 된다는 사실을 입증한다. 전문가의 직관보다 데이터 기반으로 정제된 답변이 교육적 위험도를 낮추는 데 더 효과적이었다는 수치적 결과다.

단순 사실 회상이 아닌 판단과 정교한 추론이 필요한 법률

법률 서비스는 단순한 지식 검색이나 데이터 추출로 해결할 수 없다는 믿음이 지배적이었다. 이번 연구는 정답이 명확하게 정해진 과목을 배제하고, 상충하는 여러 주장을 분석해 논리적으로 방어 가능한 결론을 도출해야 하는 법률 추론 능력의 검증에 집중했다. AI는 단순히 저장된 정보를 불러오는 것이 아니라 복잡한 법률 자료를 합성하고 이를 완전히 새로운 상황에 적용해 설명하는 능력을 보여주었다. 특히 판단력과 세밀한 추론, 그리고 법률 특유의 모호성을 탐색하는 능력이 AI를 통해 구현되었다는 점이 핵심이다. 이는 단순 사실의 회상이 아닌 고도의 지적 판단이 필요한 영역에서도 AI가 유효한 도구가 될 수 있음을 입증한 결과다.

기술적 가능성을 실제 서비스로 전환하는 작업은 스탠퍼드 법대의 liftlab(Legal Innovation through Frontier Technology Lab, 법률 혁신 프런티어 기술 연구소)을 중심으로 진행된다. 이 조직은 학술적 연구와 프로토타이핑, 그리고 산업계와의 실시간 협업을 단일 체계로 통합해 민간 부문의 고품질 법률 서비스 접근성을 높이는 것을 목표로 한다. 프런티어 기술을 활용해 법률 서비스의 진입 장벽을 낮추고, 연구실 수준의 이론이 실제 법률 시장에서 작동하게 만드는 AI 기반 솔루션을 탐구한다. 이는 법률 AI의 이론적 가능성과 실제 적용 사이의 간극을 메우기 위한 실전적 시도다. 전문직 영역의 AI 도입이 단순한 효율화를 넘어 서비스의 보편적 확산으로 이어지는 경로를 설계하는 과정이다.

법학 같은 고도의 전문 영역에서 AI의 효용성에 대한 의구심은 깊었다. 하지만 블라인드 테스트 결과 법대 교수들은 동료 교수보다 AI의 답변을 75% 더 선호했다. 단순 정답 찾기가 아닌 계약법의 모호함과 복합적 추론 능력을 평가한 결과라는 점에서 의미가 크다.

전문직 영역의 AI 도입은 이제 단순한 정확도를 넘어 전문가 수준의 판단 기준을 충족하는지가 핵심 척도가 된다.

법대 교수 75%가 선택한 정답, 정체는 AI였다

발표에서 확인된 핵심 사실

AI 답변의 교육적 유해성 판단 비율이 인간 교수보다 현저히

단순 사실 회상이 아닌 판단과 정교한 추론이 필요한 법률

관련 기사