1931년 이전 데이터만 학습해 100년 전 말투를 재현한 AI의 정체

최근의 거대 언어 모델(Large Language Model, 인간의 언어를 이해하고 생성하는 AI)들은 더 많은 최신 데이터를 학습하여 현재의 지식을 습득하는 데 혈안이 되어 있다. 하지만 정반대의 길을 선택한 모델이 등장했다. 인터넷의 흔적도, 스마트폰의 개념도 없던 시절의 언어만을 기억하는 AI가 나타난 것이다. 1930년대의 공기와 말투, 그리고 당시의 가치관을 그대로 담아낸 이 모델은 단순한 기술적 실험을 넘어 디지털 세상에 시간 여행의 가능성을 제시하고 있다.

100년 전의 지식과 언어를 복원한 기술적 설계

talkie-1930-13b-it 모델은 130억 개의 파라미터(Parameter, 모델이 학습을 통해 조정하는 매개변수)를 가진 빈티지 언어 모델이다. 이 모델의 가장 큰 특징은 학습 데이터의 엄격한 시간적 제한에 있다. 개발진은 1931년 이전에 작성된 영어 텍스트 2,600억 개의 토큰(Token, 텍스트를 처리하는 최소 단위)을 사용하여 기본 모델인 talkie-1930-13b-base를 먼저 학습시켰다.

단순히 옛날 글을 읽힌 것에 그치지 않고 사용자의 지시를 수행할 수 있도록 하는 지시어 튜닝(Instruction-tuning) 과정이 추가되었다. 이때 사용된 데이터셋은 1931년 이전의 에티켓 매뉴얼, 백과사전, 편지 작성법 가이드북 등 당시의 정제된 참조 문헌에서 추출한 지시어와 응답 쌍으로 구성되었다. 이후 모델의 성능을 극대화하기 위해 DPO(Direct Preference Optimization, 인간이나 다른 AI의 선호도를 직접 학습시켜 답변의 질을 높이는 최적화 기법)를 적용했다. 특히 이 과정에서 다른 거대 언어 모델을 판정관으로 활용하는 LLM-as-a-judge 방식을 도입해 1930년대 특유의 말투와 형식을 얼마나 정확하게 따르는지를 검증하며 강화 학습을 진행했다.

모델의 상세한 기술 보고서는 공식 웹사이트(https://talkie-lm.com/)에서 확인할 수 있으며, 모델을 실제로 구동하기 위한 참조 코드는 GitHub 저장소(https://github.com/talkie-lm/talkie)에 공개되어 있다.

현대적 AI와 차별화되는 시간적 순수성과 실무 활용 가치

기존의 범용 모델들은 방대한 데이터를 학습하지만, 그 과정에서 시대적 배경이 섞이는 시대착오적 오류가 빈번하게 발생한다. 예를 들어 1920년대의 신사와 대화하는 상황을 가정해도 현대의 AI는 무의식중에 현대적인 단어나 개념을 섞어 쓰기 마련이다. 하지만 talkie-1930-13b-it는 학습 단계부터 1931년 이후의 데이터를 완전히 배제함으로써 시간적 순수성을 확보했다.

이러한 특성은 실무적으로 매우 강력한 무기가 된다. 역사 소설이나 시대극의 시나리오를 작성하는 작가들은 당시의 정확한 말투와 사회적 에티켓을 고증하는 데 드는 시간을 획기적으로 줄일 수 있다. 또한 20세기 초반의 언어 변화를 연구하는 언어학자들에게는 실제 문헌 데이터를 기반으로 한 정밀한 시뮬레이션 도구가 된다. 특히 편지 작성법 매뉴얼을 학습했다는 점은 당시의 격식 있는 서신 교환 방식을 완벽하게 재현할 수 있음을 의미하며, 이는 고전적인 분위기의 챗봇 서비스나 교육용 콘텐츠 제작에 즉각적으로 투입될 수 있는 수준이다.

개발자 입장에서 이 모델은 특정 도메인이나 특정 시대의 데이터만을 집중적으로 학습시켰을 때 모델이 얼마나 일관된 정체성을 유지할 수 있는지를 보여주는 사례가 된다. 최신 성능 경쟁에서 벗어나 데이터의 질과 성격이 모델의 페르소나를 어떻게 결정짓는지를 증명한 결과물이라 할 수 있다.

특정 시대의 영혼을 디지털로 구현해낸 이 모델은 AI의 진화 방향이 단순히 성능 향상이 아닌 정교한 정체성 구현으로 확장될 수 있음을 보여준다.

1931년 이전 데이터만 학습해 100년 전 말투를 재현한 AI의 정체

100년 전의 지식과 언어를 복원한 기술적 설계

현대적 AI와 차별화되는 시간적 순수성과 실무 활용 가치

관련 기사