LLM 파라미터 수정 없이 지식 업데이트하는 'MEMO' 프레임워크 공개

0.00%. 기존 지식 통합 방식 중 하나인 Cartridges 모델이 BrowseComp-Plus 벤치마크에서 기록한 점수다. 시험 범위를 모두 공부하고도 실제 문제 앞에서는 단 한 문제도 맞히지 못한 꼴이다. 그런데 이는 특정 모델의 실패가 아니라, 거대언어모델(LLM)이 새로운 지식을 습득하고 유지하는 방식이 가진 구조적 한계를 그대로 보여준다.

현재 LLM은 사전 학습이 끝나면 지식이 고정된다. 세상이 변해도 모델 내부의 정보는 멈춰 있다. 이를 해결하기 위해 전체 모델을 다시 학습시키자니 비용이 너무 많이 들고, 미세 조정(Fine-tuning)을 하자니 기존에 알고 있던 내용을 잊어버리는 '치명적 망각' 현상이 발생한다. 검색 증강 생성(RAG, 외부 문서를 찾아 답을 생성하는 방식) 역시 여러 문서에 흩어진 정보를 종합해 추론해야 하는 복잡한 질문에는 취약하며, 검색 과정에서 섞여 들어오는 노이즈에 민감하다.

싱가포르 국립대학교(NUS)와 MIT CSAIL, A*STAR 연구팀은 이러한 한계를 깨기 위해 'MEMO(Memory as a Model)'라는 새로운 프레임워크를 제안했다. 핵심은 기억과 추론의 분리다. 지식을 저장하는 전용 모델과 이를 활용해 답을 내는 추론 모델을 따로 두고, 둘 사이의 인터페이스만 연결하는 방식이다. 이 구조는 메인 모델의 가중치를 단 하나도 수정하지 않고도 최신 지식을 주입할 수 있는 가능성을 열었다.

MEMO, 기억과 추론을 분리한 모듈형 구조 공개

거대 언어 모델이 학습을 마친 뒤에는 새로운 정보를 스스로 업데이트하지 못한다는 점은 실무에서 가장 큰 병목이다. 기존의 검색 증강 생성 방식은 외부 문서를 실시간으로 참조하지만, 문서 양이 늘어날수록 비용이 선형적으로 증가하고 검색 노이즈에 취약하다는 한계를 가진다. 싱가포르 국립대학교(NUS), MIT CSAIL, A*STAR, SMART 공동 연구팀이 arXiv 2605.15156을 통해 제안한 MEMO(Memory as a Model)는 이러한 고정된 지식 구조를 탈피하기 위해 기억과 추론의 역할을 완전히 분리했다.

이 구조의 핵심은 지식 내재화 전용인 MEMORY 모델과 추론 전용인 EXECUTIVE 모델의 결합이다. 연구팀은 MEMORY 모델로 Qwen2.5-14B-Instruct를 채택하여 특정 말뭉치의 지식을 매개변수 내부에 학습시켰다. 반면 EXECUTIVE 모델은 Qwen2.5-32B-Instruct 혹은 Gemini-3-Flash와 같은 상용 모델을 그대로 사용한다. 주목할 점은 EXECUTIVE 모델에 대해 가중치 접근이나 로짓 출력 없이 오직 표준 입출력 인터페이스를 통한 블랙박스 API 형태로만 상호작용한다는 것이다. 이는 모델의 내부 구조를 수정하지 않고도 지식 업데이트가 가능함을 의미한다.

실제 운용 과정에서 EXECUTIVE 모델은 복잡한 사용자 질의를 세 단계의 다중 턴 프로토콜로 분해한다. 1단계인 접지(Grounding)에서 질의를 원자 단위의 하위 질문으로 나누고, 2단계에서 엔티티 식별을 거쳐, 3단계에서 MEMORY 모델로부터 필요한 사실을 추출해 최종 답변을 합성한다. 이 과정에서 원본 문서는 추론 시점에 제공되지 않으며, 모델은 오직 내재화된 지식만을 활용한다. 결과적으로 검색 비용이 말뭉치 크기에 종속되지 않는 고정된 효율성을 확보했다.

이러한 모듈형 구조는 EXECUTIVE 모델의 교체만으로도 성능 향상을 이끌어낸다. 연구팀의 실험에 따르면 Qwen2.5-32B-Instruct에서 Gemini-3-Flash로 모델을 변경했을 때, MEMORY 모델을 재학습하지 않고도 주요 벤치마크에서 각각 12.45%, 26.73%, 11.90%의 성능 개선이 관찰되었다. 이는 지식 저장소와 추론 엔진이 독립적으로 최적화될 수 있음을 실증한다. 또한 검색 노이즈가 포함된 환경에서도 기존 방식인 HippoRAG2가 6.22%의 성능 저하를 보인 반면, MEMO는 오차 범위 내인 +0.55%의 변화만을 기록하며 높은 견고함을 입증했다.

3단계 쿼리 프로토콜과 5단계 데이터 합성 파이프라인

AI 모델을 학습시키려면 사람이 직접 정답지를 만드는 고된 작업이 필요하다. MEMO는 이 과정을 Qwen2.5-32B-Instruct(GENERATOR) 모델이 수행하는 5단계 합성 파이프라인으로 대체했다. 원문 코퍼스를 다양한 쿼리 변형이 포함된 성찰형 QA 데이터셋으로 변환하는 구조다. 이 과정에서 생성된 QA 쌍은 단순한 요약이 아니라 원문 지식을 다양한 질의 형태로 재구성한 결과물이다. 이렇게 생성된 데이터는 MEMORY 모델의 지도 미세 조정(SFT)에 활용되며, 손실 함수는 오직 답변 토큰에 대해서만 계산된다. 주목할 점은 파이프라인의 마지막 단계인 5단계(Step-5)의 영향력이다. 실험 결과 5단계를 제거했을 때 NarrativeQA 정확도가 24.00%에서 6.37%로 급락했다. 데이터 합성의 최종 정제 단계가 지식 내재화의 성패를 결정하는 핵심 요소임을 수치로 증명한 셈이다.

정보를 인출하는 과정은 단순한 질의응답이 아니라 구조화된 다회차 프로토콜로 작동한다. 첫 번째 단계인 그라운딩(Grounding)에서 EXECUTIVE 모델은 사용자 쿼리를 원자적인 하위 질문들로 분해한다. 각 하위 질문은 단 하나의 식별 제약 조건을 목표로 설계되며, MEMORY 모델은 각 질문에 독립적으로 답변한다. 원자적 분해는 복잡한 추론 과정을 단순한 사실 확인 단계로 쪼개어 인출 오류를 최소화한다. 이어지는 두 번째 단계는 엔티티 식별(Entity identification) 과정이다. EXECUTIVE 모델은 그라운딩 단계의 응답을 분석해 대상 엔티티를 좁히기 위한 타겟팅된 후속 하위 쿼리를 반복적으로 발행한다. 후보 엔티티가 하나로 확정되거나 설정된 쿼리 예산이 모두 소진될 때까지 이 식별 과정을 지속한다. 반면 기존 RAG 방식이 문서 전체를 훑으며 불필요한 노이즈에 노출되는 것과 대조적인 접근이다.

마지막 3단계는 답변 탐색 및 합성(Answer seeking and synthesis) 단계다. 확정된 엔티티를 조건으로 설정한 뒤, EXECUTIVE 모델이 MEMORY 모델에 해당 엔티티를 뒷받침하는 구체적인 사실들을 요청한다. 수집된 개별 사실들을 논리적으로 결합해 최종 답변을 합성하는 방식이다. 여기서 MEMORY 모델이 출력하는 응답은 매우 압축된 자연어 스니펫 형태를 띤다. 주목할 점은 이 응답의 길이가 학습에 사용된 코퍼스의 전체 크기에 영향을 받지 않는다는 사실이다. RAG는 참조 문서의 양이 늘어날수록 추론 비용이 함께 증가하지만, MEMO는 고정된 비용으로 정보를 인출한다. 데이터 합성으로 지식을 모델 내부에 저장하고 구조화된 쿼리로 이를 정밀하게 인출하는 설계다.

RAG 대비 노이즈 내성 및 벤치마크 성능 우위

AI 모델에 방대한 문서를 입력할 때, 관련 없는 정보가 섞이면 추론 정확도는 급격히 하락한다. 기존의 검색 증강 생성(RAG) 방식은 외부 문서 검색에 의존하기 때문에 불필요한 노이즈가 유입될 경우 성능 저하를 피하기 어렵다. 반면 MEMO(Memory as a Model)는 검색 과정 없이 모델 내부에 지식을 내재화하는 방식을 택해 이러한 한계를 돌파했다. 연구팀이 공개한 벤치마크 수치는 기존 모델들과의 격차를 명확히 보여준다.

Gemini-3-Flash를 실행 모델(EXECUTIVE model)로 사용했을 때, NarrativeQA 벤치마크에서 MEMO는 53.58%의 정확도를 기록했다. 이는 HippoRAG2가 기록한 23.21%와 비교해 두 배 이상의 성능 차이다. MuSiQue 벤치마크에서도 MEMO는 60.20%를 달성하며 HippoRAG2의 57.00%를 상회했다. BrowseComp-Plus 환경에서는 MEMO가 66.67%, HippoRAG2가 66.33%를 기록하며 근소한 우위를 점했다. 다중 홉 추론이 필요한 복잡한 과제일수록 MEMO의 지식 내재화 방식이 검색 기반 방식보다 안정적인 결과를 낸다는 사실이 입증된 셈이다.

노이즈에 대한 내성 테스트 결과는 더욱 극명하다. BrowseComp-Plus 벤치마크에 방해 문서를 추가했을 때, HippoRAG2와 NV-Embed-V2는 성능이 최대 6.22%까지 하락했다. 반면 MEMO는 +0.55%의 변동폭을 보이며 사실상 오차 범위 내의 일관된 성능을 유지했다. 이는 MEMO가 외부 검색 문서의 품질에 영향을 받지 않고, 학습된 지식에 기반해 독립적으로 추론을 수행하기 때문에 가능한 결과다. 검색 엔진의 정확도에 의존하는 기존 RAG 체계가 가진 구조적 취약점을 MEMO가 상당 부분 보완했음을 시사한다.

추가로 Cartridges와 같은 화이트박스 기반 모델들이 BrowseComp-Plus에서 0.00%, NarrativeQA에서 3.75%라는 저조한 성적을 거둔 것과 비교하면, MEMO의 범용성과 추론 능력은 더욱 두드러진다. 특히 MEMO는 실행 모델을 블랙박스로 취급함에도 불구하고, 모델의 가중치나 로짓에 접근해야 하는 방식보다 높은 정확도를 확보했다. 이는 지식의 저장과 추론의 역할을 명확히 분리한 설계가 실제 복잡한 질의응답 환경에서 실질적인 성능 향상을 이끌어냈음을 보여준다.

TIES 병합을 통한 학습 비용 5.5배 절감

새로운 지식을 모델에 주입하기 위해 매번 전체 데이터를 다시 학습시키는 방식은 자원 소모가 극심하다. 특히 데이터 규모가 커질수록 재학습에 필요한 연산 비용은 기하급수적으로 증가한다. 연구팀은 전체를 다시 학습하는 대신 이미 학습된 개별 태스크 벡터를 병합하는 방식을 도입했다. 이는 특정 지식 영역을 담당하는 모델의 파라미터 차이만을 추출해 하나의 모델로 통합하는 기술이다. 구체적으로 TIES(Trimming, Electing, and Merging) 병합 기법을 적용했으며, 이때 파라미터 수정 비율인 밀도 값은 0.3으로 설정했다.

실제 계산 효율을 비교하면 그 차이는 명확하다. K가 2인 코퍼스 환경에서 전체 재학습에는 72시간의 GPU 시간이 소요되는 반면, TIES 병합을 활용할 경우 48시간으로 33%의 비용 절감이 확인된다. 데이터 규모가 K가 10인 코퍼스로 확장될 때 차이는 더욱 벌어진다. 전체 재학습은 1,320시간이 필요하지만, 병합 기법은 240시간 만에 동일한 지식 통합 과정을 완료한다. 이는 연산 자원을 5.5배 절감하는 결과다. 모델의 지식 업데이트가 빈번한 실무 환경에서 재학습 대비 압도적인 효율성을 보여주는 수치다.

물론 성능 측면에서의 트레이드오프는 존재한다. NarrativeQA 벤치마크에서 병합 모델은 전체를 다시 학습한 모델과 비교해 성능이 다소 낮게 나타난다. Qwen2.5-32B-Instruct 모델을 기반으로 할 때는 11.04%의 성능 격차가 발생하며, Gemini-3-Flash를 사용할 경우에는 19.11%까지 차이가 벌어진다. 그러나 이러한 성능 저하에도 불구하고 병합 모델은 기존의 모든 검색 기반 베이스라인 모델보다 높은 정확도를 기록했다. 즉, 연산 비용을 5배 이상 낮추면서도 검색 시스템의 한계를 넘어서는 성능을 유지하는 것이 가능하다는 사실이 입증된 셈이다. 이는 대규모 지식 베이스를 운용하는 현장에서 전체 재학습의 대안으로 충분한 타당성을 가진다.

한국어 특화 sLLM의 기억 저장소 활용 가능성

연구팀은 MEMORY 모델의 아키텍처 범용성을 검증하기 위해 파라미터 규모가 유사한 세 가지 모델군을 대조했다. Qwen2.5-1.5B-Instruct와 Gemma3-1B-IT, 그리고 상태 공간 모델과 트랜스포머 구조를 결합한 LFM2.5-1.2B-Instruct가 실험 대상이었다. 측정 결과 세 모델 모두에서 성능 편차 없이 일관된 결과가 도출되었다. 이는 MEMO 프레임워크가 특정 모델의 사전 학습 계보나 내부 구조에 종속되지 않음을 의미한다. 개발자는 사용 중인 인프라 환경이나 한국어 처리 효율에 따라 가장 적합한 소형 모델을 기억 저장소로 선택해 배치할 수 있다.

EXECUTIVE 모델의 교체 유연성은 시스템 운용 비용과 성능 최적화의 핵심이다. 연구팀은 MEMORY 모델을 재학습시키지 않은 채 EXECUTIVE 모델만 Qwen2.5-32B-Instruct에서 Gemini-3-Flash로 전환하는 실험을 진행했다. 그 결과 세 가지 벤치마크에서 각각 12.45%, 26.73%, 11.90%의 성능 상승이 기록되었다. 주목할 점은 추론을 담당하는 모델의 체급이 올라가면 기억 저장소의 수정 없이도 전체 시스템의 정확도가 즉각적으로 상승한다는 사실이다. 이는 MEMO가 EXECUTIVE 모델을 가중치 접근이나 로짓(Logits) 확인이 필요 없는 블랙박스로 취급하여 인터페이스만으로 통신하기 때문에 가능한 결과다. 반면 기존의 잠재 메모리 방식은 기억 표현이 생성 모델에 강하게 결합되어 모델 교체 시 전이성이 떨어진다는 한계가 있었다.

기업 내부 데이터 전용 sLLM(소형 언어 모델)을 MEMORY 모델로 구축하고 API 기반의 프론티어 모델을 EXECUTIVE로 연결하는 하이브리드 구조는 실무 적용 가능성이 매우 높다. 보안이 필수적인 도메인 지식은 로컬 sLLM에 학습시켜 파라미터 내에 내재화하고 고도의 논리적 추론이 필요한 단계에서만 외부 API를 호출하는 방식이다. EXECUTIVE 모델은 쿼리를 원자적 하위 질문으로 분해하여 MEMORY 모델에 묻고 그 응답을 합성하는 역할을 수행한다. 반면 기존 RAG(검색 증강 생성) 방식은 참조 문서의 양이 늘어날수록 입력 토큰 수가 증가하여 추론 비용이 함께 상승하는 한계가 있다. MEMO는 MEMORY 모델이 압축된 자연어 스니펫 형태로 정보를 제공하므로 코퍼스 규모와 상관없이 일정한 추론 비용을 유지한다. 그러나 이 구조의 실효성은 MEMORY 모델이 학습 단계에서 도메인 지식을 얼마나 정밀하게 내재화했는지에 따라 결정된다. 특히 한국어 특화 sLLM을 기억 저장소로 활용할 경우 언어적 특성에 맞는 지식 압축이 가능해져 추론 모델의 부담을 더욱 낮출 수 있다.