깃허브(코드 저장소) 트렌드에 대한민국 관보 12.8만 건을 마크다운(텍스트 기반의 가벼운 문서 형식)으로 변환한 저장소가 갑자기 등장했다. 공공데이터포털에서 PDF(문서 포맷의 일종)를 내려받아 텍스트가 깨지는 현상과 씨름하며 각자 파싱 코드를 짜던 개발자들이 이 소식을 빠르게 공유하고 있다.

12.8만 건의 관보 데이터와 opendataloader 기반 OCR

이번에 공개된 데이터셋은 2020년 1월 2일부터 2026년 4월 7일까지의 관보 약 12.8만 건을 포함한다. 총 1,474개의 날짜 그룹으로 구성되었으며, 중앙부처 약 108,800건, 사법 약 7,700건, 교육 약 4,100건, 지자체 약 3,300건 등 약 1,600개 기관의 데이터를 다룬다.

텍스트 추출에는 한글과컴퓨터의 오픈소스 도구인 opendataloader(이미지 속 글자를 텍스트로 변환하는 도구)를 사용했다. 데이터 구조는 `derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md` 형태로 저장되어 있으며, frontmatter(문서 최상단에 위치하는 메타데이터 영역)에 제목, 발행처, 날짜, 원문 마크다운 경로가 포함되어 있다.

또한 `docs/data/meta.json`, `dates/YYYY-MM-DD.json`, `titles.json` 같은 정적 JSON(데이터 교환을 위한 경량 텍스트 형식) 인덱스를 제공한다. 이는 CORS(교차 출처 리소스 공유, 다른 도메인 간의 자원 요청을 제한하는 보안 정책) 제한 없이 외부 사이트에서 fetch(데이터를 가져오는 동작)가 가능하다. 라이브 리더는 별도의 빌드 툴 없이 열리는 순수 HTML(웹 페이지를 만드는 기본 언어)로 구현되었으며 검색, 히트맵, TOC(목차), 다크모드, 키보드 단축키 기능을 지원한다.

PDF 원본과 AI-readable 파생 레이어의 분리

개발자 커뮤니티에서는 이번 작업이 단순한 데이터 변환을 넘어 전처리 비용의 전가를 막았다는 점에 주목한다. 기존에는 PDF 파일을 AI에게 학습시키기 위해 개별 사용자가 OCR(광학 문자 인식, 이미지 속 글자를 텍스트로 바꾸는 기술)을 돌리고 표 구조가 깨지는 문제를 직접 해결해야 했다.

이번 데이터셋은 frontmatter를 통해 데이터를 chunk(데이터를 작은 단위로 쪼개는 것)하고 embedding(텍스트를 숫자로 변환해 컴퓨터가 이해하게 만드는 과정)하여 RAG(검색 증강 생성, 외부 데이터를 참조해 AI 답변 정확도를 높이는 기술) 시스템에 즉시 연결할 수 있도록 설계되었다.

핵심은 PDF 공개를 없애는 것이 아니라 그 위에 AI-readable(AI가 읽을 수 있는) 파생 레이어를 하나 더 올린 2단 구조를 채택했다는 점이다. PDF는 위변조 방지를 위한 원본으로서의 가치를 유지하고, 마크다운은 AI 에이전트가 효율적으로 정보를 추출하는 통로로 활용한다. 이는 투명성의 단계를 단순한 공개에서 기계가 읽을 수 있는 형태로 진화시킨 사례로 평가받는다.

데이터의 공개보다 중요한 것은 기계가 즉시 이해할 수 있는 형태로 제공하는 표준의 정립이다.