"irrespective of how the contents are generated." 토마스 디터리히(Thomas Dietterich) arXiv(논문 사전 공개 저장소) 컴퓨터 과학 부문 의장이 저자의 책임 범위를 정의하며 던진 말이다. 논문 검토 과정에서 "AI 모델로서 저는..."이라는 문구가 그대로 남은 논문이 발견되는 일이 빈번해지고 있다. 이 발언은 이제 AI 도구 활용 여부가 아니라 결과물에 대한 검증 여부가 투고 자격을 결정하는 기준이 되었음을 의미한다.

arXiv의 AI 무검수 논문 1년 투고 금지 조치

토마스 디터리히 의장은 지난 목요일, LLM(거대언어모델)이 생성한 결과를 저자가 확인하지 않았다는 명백한 증거가 발견될 경우 해당 논문의 어떤 내용도 신뢰할 수 없다고 발표했다. 명백한 증거에는 AI가 지어낸 가짜 참고문헌이나 LLM과의 대화 내용이 논문에 그대로 포함된 경우가 해당한다. 이러한 증거가 발견된 저자는 즉시 1년간 arXiv 투고가 금지된다. 반면 금지 기간이 끝난 후 다시 논문을 제출하려면, 반드시 신뢰할 수 있는 Peer-reviewed(동료 심사를 거친) 학술지에서 먼저 승인을 받아야 한다는 조건이 붙는다.

arXiv는 지난 20년간 코넬 대학교의 지원을 받았으나, 최근 독립적인 비영리 단체로 전환하고 있다. 이는 AI slop(AI가 생성한 저품질 콘텐츠) 문제를 해결하기 위한 재원을 더 효율적으로 확보하기 위한 조치다. 주목할 점은 이번 조치가 LLM 사용 자체를 금지하는 것이 아니라는 점이다. 저자가 부적절한 언어, 표절 내용, 편향된 콘텐츠, 오류, 잘못된 참고문헌을 그대로 사용했다면 그 책임은 전적으로 저자에게 귀속된다.

단순 권고에서 원스트라이크 아웃 제도로의 전환

예전에는 처음 논문을 올리는 사용자에게 기존 저자의 추천(Endorsement)을 받게 하는 방식으로 진입 장벽을 세웠다. 이제는 투고 이후의 검증 단계에서 원스트라이크 규칙을 적용해 즉각적인 제재를 가하는 방식으로 바뀌었다. 모더레이터(게시물 관리자)가 문제를 발견해 보고하고, 부문 의장이 증거를 최종 확인하면 즉시 페널티가 부과된다. 다만 저자가 이 결정에 대해 이의를 제기할 수 있는 항소 절차는 마련되어 있다.

최근 생의학 연구 분야에서는 LLM의 영향으로 조작된 인용구가 증가하고 있다는 연구 결과가 나왔다. 이전에는 일부 부주의한 실수로 치부되었던 가짜 인용이 이제는 시스템적인 제재 대상이 된 것이다. 연구자가 체감하는 변화는 명확하다. AI가 쓴 문장을 한 번이라도 그대로 옮겼다가 적발되면, 1년 동안 학계의 가장 빠른 유통 경로 중 하나인 arXiv를 사용할 수 없게 된다.

사전 공개 논문의 가치는 속도가 아니라 신뢰에 있으며, 이제 그 신뢰의 비용을 저자가 직접 지불해야 하는 시대가 왔다.