출판사 직원이 프로젝트 폴더를 열자 '최종', '진짜최종', '수정본_최종'이라는 이름의 폴더 다섯 개가 나열되어 있다. 어떤 파일이 최신 버전인지 확인하기 위해 각 폴더의 생성 날짜와 파일 용량을 일일이 대조한다. 동료의 디스크에도 동일한 프로젝트 폴더가 복제되어 저장 공간을 낭비하고 있다.

Rust 기반의 고성능 디스크 스캐닝

LLM diskscan은 디스크 내 중복 파일을 찾아 제거하고 사용자의 작업 성향을 분석하는 도구다. 초기 버전은 Python(데이터 분석에 주로 쓰이는 프로그래밍 언어)으로 제작되었다. 이후 Go Whails(Go 언어 기반의 데스크톱 앱 개발 프레임워크)를 거쳐 현재는 Rust(메모리 안전성과 성능이 뛰어난 시스템 프로그래밍 언어)로 고도화되었다.

지원 환경은 맥, 윈도우, 리눅스, NAS(네트워크 연결 저장 장치), 클라우드까지 확장된다. 중복 비교 방식은 파일의 고유값인 해시(데이터의 지문을 만드는 기술)를 기반으로 원본을 대조한다. 이를 통해 단순 파일명 일치가 아닌 실제 내용의 동일 여부를 판별한다. 작업 과정에서 생성되는 ._ 형태의 불필요한 메타데이터 파일은 자동으로 식별해 제거한다.

AI 분석을 위해 다양한 엔진을 선택할 수 있다. Ollama(내 컴퓨터에서 거대언어모델을 실행하게 해주는 도구)와 LMStudio(로컬 환경에서 AI 모델을 쉽게 테스트하는 소프트웨어) 같은 로컬 LLM 환경을 지원한다. 외부 API를 활용하고 싶다면 Gemini API와 OpenAI API를 연결해 사용할 수 있다.

단순 정리를 넘어선 데이터 프로파일링

기존의 디스크 정리 도구는 저장 공간 확보라는 기능적 목적에만 집중했다. LLM diskscan은 여기서 데이터 프로파일링이라는 새로운 지형을 제시한다. 파일 포맷과 숨겨진 파일의 분포를 분석해 사용자가 어떤 유형의 작업자인지 리포트를 생성한다. 현재 어떤 프로젝트를 수행 중인지, 작업 패턴은 어떠한지를 AI가 해석해 알려주는 방식이다.

이는 디스크 관리를 단순한 유지보수 작업에서 데이터 자산 분석으로 전환시킨다. 기업 입장에서 직원이 어떤 툴을 주로 사용하는지, 프로젝트 복제 패턴이 어떻게 형성되는지 파악하는 포석이 된다. 특히 로컬 LLM 지원은 기업의 민감한 파일 구조가 외부 서버로 유출되는 것을 막는 보안 전략으로 작용한다.

기술 스택의 변화 역시 주목할 지점이다. Python에서 Rust로 전환한 것은 대용량 디스크 스캔 시 발생하는 메모리 병목 현상을 해결하고 실행 속도를 극대화하려는 의도다. 이는 개인용 도구를 넘어 엔터프라이즈급 데이터 관리 도구로 확장하려는 성능적 기반을 다진 것으로 풀이된다.

데이터 관리의 핵심이 단순한 삭제에서 의미론적 이해로 이동하고 있다.