흩어진 문서 10만 장을 AI로 통합, '살아있는 도서관'의 탄생

7월 4일 개관하는 시어도어 루스벨트 대통령 도서관의 'AI 실험'

방대한 과거 기록이나 문서를 찾기 위해 여러 사이트를 전전하며 내용을 복사하고 붙여넣던 번거로운 경험은 연구자나 일반인 모두에게 익숙한 고충이다. 정보를 찾는 데 드는 시간과 노력이라는 보이지 않는 비용은 결국 지식 습득의 진입장벽이 된다. 노스다코타주 메도라에 위치한 시어도어 루스벨트 대통령 도서관은 7월 4일 일반 공개를 앞두고 이러한 탐색 비용을 AI로 제거한 살아있는 도서관(Living Library) 설계를 도입했다. 단순한 기록 보관소를 넘어 AI가 실시간으로 정보를 제공하고 상호작용하는 환경을 구축하여, 방문객이 루스벨트의 생애 전반에서 겪은 경험을 통해 쉽게 배울 수 있도록 설계했다.

메도라에 세워진 도서관 건물은 외관을 지역 자생 풀로 덮고 천창을 통해 자연광을 최대한 활용하는 친환경 구조를 취했다. 내부에는 대통령의 자택과 백악관을 재현한 전시 공간이 마련되어 있지만, 실제 운영의 핵심은 AI가 구동하는 인터랙티브 시스템이다. 방문객은 도서관 현장에서 AI 기반의 루스벨트 아바타와 직접 채팅하며 그의 리더십 철학이나 생애 전반의 경험, 그리고 그가 남긴 유산에 대해 구체적으로 질문하고 답을 얻을 수 있다. 이는 박제된 기록물을 관람하는 기존 방식에서 벗어나 AI를 통해 역사적 인물과 대화하며 지식을 습득하는 능동적 경험으로의 전환이다.

도서관은 물리적 공간의 한계를 넘어 전 세계 어디서든 접속할 수 있는 디지털 연구 도구인 캠프파이어 리딩 룸(The Campfire Reading Room)을 운영한다. 이 시스템은 루스벨트가 남긴 방대한 분량의 서신과 이미지, 각종 역사적 기록물들을 AI가 처리하여 사용자가 쉽게 검색하고 탐색할 수 있도록 지원한다. 사용자는 전문적인 아카이브 검색 식별자를 몰라도 일상적인 언어로 질문함으로써 루스벨트의 실제 문서에 기반한 응답을 즉시 찾아낼 수 있다. 이는 흩어져 있던 파편화된 역사적 자료를 인터랙티브한 서비스로 전환하여, 전 세계 사용자가 프런티어의 전설인 루스벨트의 기록을 완전히 새로운 방식으로 탐색하게 만든 실무적 구현 모델이다.

18개 기관의 파편화된 기록을 묶은 지식 저장소 'Box 1'

필요한 자료를 찾기 위해 여러 사이트를 전전하며 내용을 일일이 복사해 붙여넣던 번거로운 경험은 실무자에게 매우 익숙한 불편함이다. 특히 출처가 제각각인 방대한 기록물을 하나의 맥락으로 엮는 작업은 단순 반복 노동에 가깝다. 마이크로소프트 AI For Good Lab(사회 공헌 AI 연구소)은 이러한 파편화 문제를 해결하기 위해 지식 베이스의 중추 역할을 하는 Box 1 시스템을 구축했다.

Box 1은 18개 기관에 흩어져 있던 32개의 개별 컬렉션을 하나의 시스템으로 통합했다. 처리 대상은 수십만 건에 달하는 비정형 아카이브 문서였다. 수십만 건의 문서는 각기 다른 형식과 저장 방식을 가지고 있어 통합 난도가 높았다. 기존에는 기록 보관소에 직접 방문하거나 자료의 정확한 위치를 아는 소수의 전문가만 접근할 수 있었던 폐쇄적인 구조였으나, 이를 디지털 환경으로 옮겨 누구나 접근할 수 있는 통합 저장소로 변환했다.

시스템의 핵심은 AI를 이용해 자료를 조직하고 보강하며 재구성하는 프로세스에 있다. 조직 단계에서는 흩어진 문서들을 체계적으로 분류하고, 보강 단계에서는 텍스트에 숨은 맥락을 찾아내어 AI가 이해할 수 있는 형태로 정보를 덧붙이는 작업을 수행한다. 마지막 재구성 단계에서는 파편화된 자료들을 서로 연결해 하나의 완성된 역사적 기록으로 변환한다. 이 과정을 통해 단순한 파일 저장소가 아닌 맥락이 유지되는 지식 베이스가 완성되었다.

이러한 구현 방식은 정적인 아카이브를 인터랙티브한 서비스로 전환하려는 문화 기관과 개발자에게 실질적인 모델을 제시한다. 수십만 건의 비정형 문서를 AI로 구조화하여 검색 가능한 지식 베이스로 구축한 결과는 데이터 통합의 실무적 효율성을 증명한다. 특히 오픈소스 기반의 구현 모델을 지향함으로써 유사한 규모의 기록물을 보유한 다른 문화 기관들이 즉시 참고하고 적용할 수 있는 표준 접근 방식을 마련했다.

자연어 검색과 페르소나 구현이 바꾼 역사 탐색 경험

18개 기관에 흩어진 32개 컬렉션을 일일이 찾아다녀야 했던 과거의 방식은 이제 일상 언어 한 문장으로 대체된다. 사용자가 평소 쓰는 말로 질문하면 시스템은 루스벨트가 남긴 실제 문서와 기록을 찾아 응답으로 제시한다. 수십만 건의 방대한 기록물 사이에서 특정 맥락을 찾아내기 위해 전문 사서의 도움을 받거나 복잡한 검색어를 조합해야 했던 번거로움이 사라졌다. 전문가의 전유물이었던 아카이브 탐색의 진입장벽을 일반인 수준으로 낮춰 누구나 역사적 사실에 직접 접근하게 만든 결과다.

루스벨트의 성격과 유머 감각을 학습한 AI 아바타는 단순한 정보 전달을 넘어 인격적 상호작용을 수행한다. 실제 시연 과정에서 아바타는 상원 의원을 대상으로 이 사무실은 진실을 말하는 사람들을 위한 곳이며 상원 의원들에게도 해당한다는 식의 농담을 던졌다. 현대의 특정 정치인 이름을 정확히 알지 못하더라도 정치인이라는 집단의 특성을 이용해 유머를 구사하도록 설계했다. 이는 정적인 텍스트 데이터를 넘어 인물의 페르소나를 디지털로 구현해 방문객이 역사적 인물과 대화하는 듯한 몰입감을 느끼게 한다.

전 연령층이 이용하는 공공 시설인 만큼 PG 등급(전체 관람가) 수준의 안전 프로토콜을 적용했다. 금지된 주제에 대한 질문이 들어오면 답변을 거부하고 자연스럽게 다른 대화로 유도하는 리다이렉션 기능을 탑재해 운영 리스크를 줄였다. 또한 Box 1에 새로운 문서가 추가되거나 생성형 AI의 성능이 올라가면 아바타의 컨텍스트는 자동으로 업데이트된다. 관리자가 매번 수동으로 프롬프트를 수정하거나 데이터를 재학습시키지 않아도 지식 베이스의 확장이 실시간으로 반영되는 구조다. 정적인 아카이브를 지속적으로 성장하는 인터랙티브 서비스로 전환하려는 기관이 참고할 만한 구현 모델이다.

오픈소스 공개 예정인 '문화유산 AI'의 실무적 가치

방대한 기록물을 보유하고 있지만 이를 일반인이 쉽게 이용할 수 있는 인터랙티브 서비스로 구현하려면 구체적으로 어떤 설계도가 필요할까. 마이크로소프트 AI For Good Lab(사회 공헌 AI 연구소)은 이번 프로젝트를 기술 기부 형태로 진행하며 실무적인 가이드라인을 제시했다. 단순한 시스템 구축 지원을 넘어 다른 문화 기관들이 즉시 참고할 수 있는 기술적 토대를 마련한 것이다.

마이크로소프트는 시스템의 작동 방식을 상세히 기록한 논문을 발표하고 프로젝트에 사용된 소프트웨어를 오픈소스로 공개할 예정이다. 오픈소스는 누구나 코드를 확인하고 수정해 사용할 수 있는 공개 소프트웨어를 뜻한다. 논문에서 이론적 근거를 확인하고 공개된 코드로 실제 구현체를 검증하는 방식은 연구와 현장 사이의 거리를 좁히는 가장 효율적인 경로다. 개발자는 내부 로직을 직접 확인하며 기관이 보유한 데이터의 특성에 맞춰 기능을 빠르게 수정하고 최적화할 수 있다.

국내 문화 기관이나 공공 아카이브 담당자에게 이 사례는 정적인 저장소를 살아있는 서비스로 전환하는 실무적인 벤치마크가 된다. 수십만 건의 파편화된 자료를 통합하고 AI로 보강해 검색 가능한 지식 베이스로 만드는 표준 구현 방법이 구체적으로 공개되기 때문이다. 이는 매번 막대한 예산을 들여 독자적인 솔루션을 개발해야 했던 기존 방식에서 벗어나, 검증된 오픈소스 모델을 기반으로 구축 비용을 낮추고 구현 속도를 높이는 전략적 선택지를 제공한다.

실무자가 주목해야 할 지점은 특정 제품의 도입이 아니라 데이터 보강과 재구성이라는 작업 순서의 표준화다. 오픈소스 기반의 구현 모델이 제공되면 국내 환경에 맞는 데이터 정제 규칙을 세우고 이를 시스템에 이식하는 작업에만 집중할 수 있다. 정적인 아카이브를 인터랙티브 서비스로 바꾸려는 개발자와 기획자는 공개될 논문의 아키텍처와 소스 코드를 통해 내일 당장 적용 가능한 워크플로를 설계할 수 있다.

여러 사이트를 전전하며 파편화된 기록을 복사하고 붙여넣던 번거로움은 이제 AI 기반의 지식 베이스 구축으로 해결 가능하다. Box 1 시스템이 증명했듯, 흩어진 데이터를 AI로 보강하고 재구성하면 정적인 아카이브는 누구나 쉽게 탐색할 수 있는 인터랙티브 서비스로 변한다. 정적인 기록물을 살아있는 지식으로 전환하려는 개발자와 기획자는 공개될 아키텍처와 소스 코드를 기준으로 내일의 워크플로를 설계하면 된다. 결국 아카이브의 실무적 가치는 보존의 양이 아니라 검색 가능한 맥락의 밀도로 결정된다.