수천 페이지의 기술 문서를 챗봇에 업로드한다. 처음에는 정확하게 답변하던 AI가 대화가 길어질수록 앞서 말한 전제 조건을 잊거나 엉뚱한 소리를 하기 시작한다. 개발자가 겪는 이 현상은 현재 거대언어모델이 가진 기억력의 한계이자 고질적인 환각 현상이다.
LLM+의 등장과 효율화 기술
거대언어모델은 이제 LLM+라는 다음 단계로 진입하고 있다. 목표는 인간이 며칠 혹은 몇 주에 걸쳐 해결해야 할 복잡한 다단계 문제를 스스로 처리하는 것이다. 이를 위해 연산 비용을 낮추고 효율을 높이는 기술적 시도가 이어지고 있다. Mixture-of-Experts(모델을 여러 개의 작은 전문가 그룹으로 나누어 특정 작업에 필요한 부분만 활성화하는 방식)가 대표적이다. 이 방식은 모델 전체를 가동하지 않아도 되므로 연산 자원을 획기적으로 줄인다.
기존의 Transformers(현재 대부분의 AI 모델을 지탱하는 신경망 구조)를 버리고 Diffusion models(주로 이미지나 영상 생성에 사용되는 신경망 구조)를 도입하려는 움직임도 나타난다. DeepSeek(중국의 AI 기업)는 텍스트를 이미지 형태로 인코딩하여 연산 비용을 절감하는 방식을 선보였다. Context window(모델이 한 번에 받아들일 수 있는 데이터의 양)는 과거 수천 토큰(단어 혹은 단어의 일부 단위) 수준에서 최근 100만 토큰까지 확장되었다. 이는 책 수십 권 분량을 한 번에 읽어내는 수준이다.
MIT CSAIL(MIT 컴퓨터 과학 및 인공지능 연구소)은 Recursive LLMs(입력 데이터를 작은 덩어리로 나누어 복제된 모델들이 계층적으로 처리하는 구조)를 제안했다. 방대한 데이터를 한 번에 처리하는 대신, 데이터를 쪼개어 여러 개의 복제 모델에 보내고 그 결과를 다시 취합하는 방식이다. 이 구조는 긴 작업에서도 모델이 방향을 잃지 않고 신뢰도를 유지하게 만든다.
모듈형 지능으로의 지형 변화
단순히 기억 용량을 늘리는 방식은 한계에 봉착했다. 컨텍스트 윈도우가 커질수록 모델이 정보를 누락하거나 논리적 흐름을 놓치는 현상이 심화되기 때문이다. Recursive LLMs의 등장은 거대한 뇌 하나에 의존하던 방식에서 협업하는 작은 뇌들의 집합으로 전략적 포석을 옮겼음을 의미한다.
이는 연산 효율성을 극대화하여 AI 운영 비용 구조를 근본적으로 바꾼다. 기업들은 이제 모델의 파라미터 크기가 아니라 아키텍처의 효율성으로 경쟁하는 지형에 놓였다. 텍스트 생성이라는 단순 기능을 넘어 자율적으로 업무를 완수하는 에이전트(사용자의 목표를 이해하고 스스로 계획을 세워 실행하는 AI)로의 전환이 가속화된다.
비즈니스 임팩트는 명확하다. AI 서비스의 과금 체계가 단순 API 호출 횟수나 토큰 양에서 업무 완수 기반의 성과제로 바뀔 가능성이 크다. 이는 AI가 단순한 보조 도구를 넘어 주니어 직원 수준의 업무 수행 능력을 갖추게 됨을 뜻한다. 투자 흐름 역시 무조건적인 컴퓨팅 파워 확장보다는 최적화된 아키텍처와 효율적인 추론 엔진을 가진 기업으로 쏠릴 것이다.
AI는 이제 질문에 답하는 도구가 아니라 프로젝트를 완수하는 시스템으로 변모하고 있다.




