RAG 한계 넘은 delta-mem, 0.12% 파라미터로 AI '작업 기억력' 구현

76.40%. 기존의 일부 메모리 확장 방식이 모델의 성능을 높이기 위해 추가해야 했던 파라미터의 비중이다. 비유하자면, 작은 수첩 하나면 될 메모를 위해 백과사전 수십 권을 통째로 들고 다니며 매번 페이지를 넘기는 셈이다. 그런데 최근 Mind Lab(마인드 랩, AI 연구소)과 여러 대학 연구진이 이 비효율을 획기적으로 줄인 'delta-mem'이라는 기술을 제안했다.

그동안 AI 에이전트가 이전 대화 내용을 잊어버려 같은 질문을 반복하거나, 코딩 도중 디버깅 맥락을 놓치는 문제는 고질적이었다. 개발자들은 보통 컨텍스트 윈도우(모델이 한 번에 처리하는 데이터 양)를 늘리거나 RAG(검색 증강 생성, 외부 문서를 찾아 참조하는 기술)를 추가해 이를 해결하려 했다. 하지만 이 방식은 데이터가 많아질수록 비용이 기하급수적으로 늘어나고, 정작 필요한 정보를 정확히 끄집어내지 못하는 '컨텍스트 부패' 현상을 일으키곤 했다. delta-mem은 모델 자체를 건드리지 않고도 과거의 정보를 압축해 저장하는 새로운 길을 제시한다.

0.12%의 추가 파라미터로 달성한 기억력의 도약

개발팀이 공개한 수치는 여기서 갈린다. 기존의 기억력 확장 방식인 MLP Memory(다층 퍼셉트론 메모리, 데이터를 저장하는 신경망 층)는 모델 크기의 76.40%에 달하는 약 30억 개의 파라미터를 추가로 사용했다. 파라미터는 AI가 학습을 통해 저장하는 일종의 지식 단위인데, 이를 30억 개나 추가한다는 것은 모델의 덩치를 거의 두 배 가까이 키우는 것과 같다. 반면 이번에 공개된 delta-mem은 Qwen3-4B-Instruct 모델 기준으로 단 487만 개의 파라미터만 추가했다. 전체 비중으로 따지면 고작 0.12% 수준이다. 쉽게 말하면, 거대한 도서관 건물을 새로 짓는 대신 아주 작고 효율적인 인덱스 카드 한 장을 덧붙인 셈이다. 비유하자면 뇌 전체를 확장하는 대수술을 하는 대신, 필요한 정보만 빠르게 찾아낼 수 있는 작은 메모장 하나를 손에 쥐여준 것과 같다. 이렇게 극소량의 자원만 사용했음에도 기억력의 효율은 오히려 압도적이었다.

성능의 도약은 구체적인 벤치마크 수치에서 명확히 드러난다. 연구팀은 Qwen3-8B, Qwen3-4B-Instruct, SmolLM3-3B 같은 소형 언어 모델을 백본(기본 뼈대가 되는 모델)으로 삼아 테스트를 진행했다. 기억력의 유지와 회수 능력을 측정하는 Memory Agent Bench 점수를 보면, 기존 29.54%에서 38.85%로 상승하며 기억의 정확도가 높아졌다. 특히 실시간으로 새로운 정보를 학습해 즉시 적용하는 테스트 시간 학습(Test-time learning) 성능은 26.14에서 50.50으로 약 2배 가까이 증가했다. 쉽게 말해, AI가 대화 도중 방금 들은 사용자의 취향이나 특정 규칙을 잊지 않고 다음 답변에 즉각 반영하는 능력이 비약적으로 개선된 것이다. 이는 단순히 데이터를 저장하는 것을 넘어, 필요한 순간에 정확히 꺼내 쓰는 인출 능력이 강화되었음을 보여준다.

세부적인 구현 방식에서도 기존 기법들을 압도하는 효율성을 보였다. Qwen3-4B-Instruct 모델을 기반으로 토큰 상태 쓰기(Token-state write, 개별 단어 단위로 기억을 세밀하게 업데이트하는 방식) 변체를 적용했을 때 51.66%의 점수를 기록했다. 이는 아무런 추가 장치를 하지 않은 바닐라 모델의 46.79%나, 또 다른 효율적 학습 방식인 Context2LoRA(컨텍스트 기반 저랭크 적응, 입력 문맥에 맞춰 모델의 일부 가중치만 조정하는 기법)의 44.90%를 모두 상회하는 수치다. 결국 delta-mem은 모델의 전체 덩치를 키우지 않고도 기억의 밀도를 극대화하는 데 성공했다. 방대한 데이터를 무작정 입력창에 밀어 넣거나 모델 자체를 무겁게 만드는 기존 방식의 한계를 깨고, 아주 적은 비용만으로 AI가 과거의 맥락을 정교하게 짚어낼 수 있는 새로운 경로를 증명한 셈이다.

OSAM과 델타 규칙: '문서 검색'에서 '연상 기억'으로

기존의 AI가 기억을 되살리는 방식은 도서관에서 관련 책을 찾아 다시 읽는 것과 비슷했다. 하지만 델타-멤(delta-mem)이 도입한 OSAM(온라인 연상 기억 상태, Online State of Associative Memory)은 텍스트를 다시 읽지 않고 수치화된 메모리 행렬을 통해 정보를 즉각 인출한다. 쉽게 말하면 방대한 문서를 뒤지는 대신, 핵심 요약본이 적힌 작은 메모장을 항상 손에 쥐고 있는 셈이다. LLM(대규모 언어 모델)의 현재 은닉 상태(Hidden State, 모델 내부에서 처리되는 데이터의 중간 벡터 값)를 이 고정 크기 행렬에 투영하면 과거의 상호작용이 압축된 메모리 신호가 추출된다. 이 신호는 다시 수치적 보정값으로 변환되어 모델의 추론 과정에 직접 반영된다. 비유하자면 대화 도중 상대방의 특정 단어나 분위기를 통해 과거의 맥락을 본능적으로 떠올려 답변의 방향을 즉시 수정하는 것과 유사한 작동 방식이다.

기억을 업데이트하는 과정에서는 델타 규칙 학습(Delta-rule learning)과 게이트 델타 규칙(Gated delta-rule)이 핵심적인 역할을 수행한다. 새로운 정보가 입력되면 현재의 메모리 상태를 바탕으로 결과값을 먼저 예측하고, 실제 값과 비교해 발생한 오차만큼 행렬의 수치를 수정하는 방식이다. 여기서 게이트 델타 규칙은 어떤 과거 기억을 유지하고 어떤 일시적인 소음을 지울지 결정하는 정밀한 조절 나사 역할을 하여 효율적인 선택적 망각을 가능하게 한다. 업데이트 전략은 목적에 따라 세 가지로 세분화된다. 아주 세밀한 변화까지 포착하는 토큰 상태 쓰기(Token-state write), 메시지 단위로 정보를 평균화해 업데이트를 매끄럽게 만드는 시퀀스 상태 쓰기(Sequence-state write), 그리고 사실 관계나 작업 진행도처럼 정보의 성격에 따라 저장 공간을 분리하는 멀티 상태 쓰기(Multi-state write)가 그것이다.

이러한 구조는 기존의 세 가지 메모리 패러다임이 가진 고질적인 한계를 해결한다. 텍스트 메모리는 컨텍스트 윈도우 크기 제한으로 인해 정보 손실이 잦고, 외부 채널을 이용하는 RAG(검색 증강 생성, Retrieval-Augmented Generation)는 외부 저장소에서 데이터를 가져오는 과정에서 필연적으로 지연 시간이 발생한다. 또한 파라미터 방식은 학습이 끝난 후 가중치가 고정되기 때문에 실시간 상호작용 중에 새로운 정보를 학습해 반영하는 것이 불가능했다. 델타-멤은 이러한 단점들을 극복하며 BM25 RAG, LLMLingua-2, MemoryBank 같은 텍스트 기반 방식이나 Context2LoRA, MemGen, MLP Memory 같은 파라미터 및 외부 채널 방식보다 뛰어난 효율을 증명했다. 텍스트를 통째로 다시 읽는 대신 수치화된 기억 신호만으로 문맥을 복원함으로써 추론 속도는 높이고 토큰 소모는 획기적으로 줄인 것이다.

기업용 AI 에이전트의 운영 병목을 해결하는 실무적 가치

GPU 메모리 점유율 수치는 프롬프트 길이가 32,000 토큰까지 늘어나도 표준 모델과 거의 동일한 수준을 유지한다. 보통 AI가 더 많은 과거 내용을 기억하게 하려면 AI가 한 번에 처리할 수 있는 기억 공간인 컨텍스트 윈도우를 넓히거나 더 많은 데이터를 입력해야 한다. 하지만 이 방식은 입력값이 늘어날수록 컴퓨팅 자원을 기하급수적으로 소모하며 비용 상승으로 이어진다. 반면 delta-mem은 모델 자체를 수정하지 않고 아주 작은 크기의 행렬에 정보를 압축해 저장하는 방식을 취한다. 에서 볼 수 있듯 이 구조는 전체 모델 파라미터의 0.12%라는 극소량의 자원만 추가하면서도 효율적인 기억 유지를 가능하게 한다.

비유하자면 기존 방식이 질문을 받을 때마다 수천 페이지의 매뉴얼을 처음부터 다시 읽는 식이었다면, 이번 기술은 핵심 내용을 요약해 작은 수첩에 적어두고 필요할 때마다 빠르게 확인하는 것과 같다. 이런 변화는 실무 현장에서 즉각적인 가치를 만든다. 코딩 어시스턴트의 경우 프로젝트 전체의 코딩 규칙인 컨벤션이나 최근에 진행한 디버깅 단계, 사용자가 선호하는 스타일을 매번 다시 알려줄 필요 없이 기억하고 작업에 반영한다. 개발자는 AI가 이전 대화 맥락을 놓쳐 엉뚱한 코드를 제안하는 상황에서 벗어나 더 매끄러운 워크플로우를 경험하게 된다.

데이터 분석 에이전트 역시 작업의 현재 상태나 분석 과정에서 세운 가정, 이전 단계의 관찰 결과를 안정적으로 유지할 수 있다. 특히 여러 단계를 거쳐 흩어진 증거를 조합해 정답을 찾아야 하는 멀티홉(Multi-hop) 작업에서 진가가 드러난다. AI에게 입력하는 텍스트 조각인 프롬프트 토큰을 대규모로 다시 주입하지 않고도 과거의 관련 증거를 정확하게 복구해내기 때문이다. 의 벤치마크 결과가 보여주듯 이는 단순히 기억력이 좋아진 것을 넘어 운영 비용의 증가 없이 복잡한 기업용 업무를 수행할 수 있는 실무적 토대를 마련한 것이다. 추론 비용의 증가 없이 장기 기억을 유지함으로써 엔터프라이즈 환경의 고질적인 병목이었던 자원 효율성과 기억 유지 사이의 충돌을 해결했다.

RAG 한계 넘은 delta-mem, 0.12% 파라미터로 AI '작업 기억력' 구현

0.12%의 추가 파라미터로 달성한 기억력의 도약

OSAM과 델타 규칙: '문서 검색'에서 '연상 기억'으로

기업용 AI 에이전트의 운영 병목을 해결하는 실무적 가치

관련 기사