트랜스포머부터 RAG까지, LLM의 설계도를 그린 5가지 핵심 논문

트랜스포머에서 RAG까지, LLM을 정의하는 5가지 이정표

현대 LLM은 트랜스포머 구조, 사전 학습, 스케일링, 지시어 튜닝, RAG의 단계적 결합으로 완성된다. 그 시작점인 'Attention Is All You Need' 논문은 트랜스포머(Transformer) 아키텍처를 도입해 기존의 순환 신경망(RNN)이나 합성곱(CNN) 구조 대신 어텐션 메커니즘만으로 강력한 시퀀스 모델을 구축할 수 있음을 증명했다. 현재 시장을 주도하는 GPT, Llama, Claude, Gemini, Qwen 모델 모두 이 구조를 기본 뼈대로 사용한다.

이후 GPT-3, Scaling Laws, InstructGPT, RAG 논문들이 차례로 등장하며 모델의 규모를 키우고, 인간의 의도를 반영하며, 외부 지식을 연결하는 설계도를 완성했다. 이 다섯 가지 이정표는 LLM의 진화 경로를 보여준다. 트랜스포머 아키텍처로 시작해 사전 학습과 스케일링을 거쳐 지시어 튜닝과 RAG로 이어지는 흐름을 이해하면 최신 모델의 성능 한계를 명확히 짚어낼 수 있다. 특히 모델의 내부 지식만으로 해결할 수 없는 문제에서 왜 RAG 도입이 필수적인지 판단하는 실무적 기준이 된다.

셀프 어텐션과 인컨텍스트 러닝의 작동 원리

LLM은 셀프 어텐션(Self-attention) 기술로 문장 내 대명사가 가리키는 대상과 같은 문맥적 관계를 해결한다. 시퀀스 내의 각 토큰이 다른 모든 토큰과 관계를 맺으며 어떤 정보에 더 집중할지 중요도를 결정한다. 이 과정은 트랜스포머 블록 내의 멀티 헤드 어텐션(Multi-head Attention)을 통해 수행되며, 여러 개의 헤드가 서로 다른 문맥적 특징을 동시에 포착해 정보 손실을 줄인다. 여기에 포지셔널 인코딩(Positional Encoding)이 더해져 토큰의 상대적 위치 정보를 수치로 변환해 입력한다. 이러한 구성 요소들의 결합이 LLM이 긴 문맥을 일관되게 유지하는 구조적 토대가 된다.

사용자가 프롬프트에 몇 가지 예시를 적어 넣으면 모델이 즉시 그 형식을 따르는 인컨텍스트 러닝(In-context Learning)이 가능하다. GPT-3는 1750억 개의 파라미터를 통해 가중치를 업데이트하는 역전파 과정 없이도 입력된 텍스트 윈도우 내 토큰 간의 통계적 상관관계를 파악해 다음 토큰을 예측한다. 기존 딥러닝 모델이 새로운 작업마다 수만 건의 데이터를 수집하고 미세 조정을 거쳐야 했던 공정을 생략한 것이다.

이 덕분에 하나의 모델이 번역가에서 파이썬 개발자로 즉시 전환될 수 있다. 과거의 자연어 처리(NLP) 시스템은 감성 분석, 번역, 요약 등 개별 작업마다 전용 모델을 따로 구축해야 했으나, 인컨텍스트 러닝이 적용된 거대 모델은 단일 아키텍처 내에서 입력값의 변화만으로 수많은 태스크를 처리한다. 기업은 이제 개별 작업용 모델을 개발하는 대신 최적의 프롬프트를 설계하는 프롬프트 엔지니어링으로 전략을 수정해 개발 기간과 운영 비용을 낮췄다.

베이스 모델을 어시스턴트로 만드는 정렬 기술

개발자가 베이스 모델에 "이 보고서를 세 줄로 요약해줘"라고 입력하면, 모델은 요약 대신 보고서의 다음 내용을 상상해서 이어 쓰는 경우가 많다. 베이스 모델은 인터넷의 방대한 텍스트를 통해 다음 토큰을 예측하는 법만 배웠기 때문이다. 사용자는 과업 완수를 원하지만 모델은 확률적으로 적절한 단어를 나열하는 데 그치는 이 간극을 해결하기 위해 정렬(Alignment) 과정이 필요하다.

먼저 SFT(Supervised Fine-Tuning, 지도 미세 조정)를 통해 모델에게 정답의 형식을 가르친다. 사람이 직접 작성한 질문과 모범 답안 쌍을 학습시켜 "요약해줘" 같은 지시어가 나왔을 때 어떤 형태의 응답을 내놓아야 하는지 학습시키는 단계다. 하지만 모든 질문 조합에 대해 모범 답안을 작성하는 것은 비용과 시간이 너무 많이 소요된다.

이를 보완하기 위해 RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)를 적용한다. 사람이 정답을 직접 쓰는 대신 모델이 생성한 여러 답변 후보군의 품질 순위를 매기면, 이 데이터로 보상 모델(Reward Model)이라는 판별기를 학습시킨다. 보상 모델은 인간이 어떤 답변을 더 선호하고 안전하게 느끼는지 수치화하여 판단하는 기준점이 된다.

마지막으로 LLM은 이 보상 모델로부터 높은 점수를 받기 위해 자신의 가중치를 업데이트한다. 보상 모델이 높은 점수를 줄 만한 응답 생성 확률을 높이고 낮은 점수를 받을 응답은 억제한다. 이 단계를 통해 모델은 단순한 텍스트 예측기에서 인간의 의도를 정확히 파악하고 수행하는 어시스턴트로 변하며, 사용자는 자연어 대화만으로 정교한 결과물을 얻게 된다.

스케일링 법칙과 RAG가 바꾼 기업용 AI의 경제학

스케일링 법칙(Scaling Laws)은 파라미터, 데이터, 컴퓨팅 자원이 늘어나면 모델의 손실 함수 값이 일정하게 떨어지며 성능이 예측 가능한 경로로 향상된다는 사실을 증명했다. 하드웨어 투입량이 곧 지능의 수준으로 치환되는 구조이며, 이는 빅테크 기업들이 거대 컴퓨팅 클러스터와 대규모 데이터셋에 천문학적인 자금을 투입하는 기술적 근거가 되었다. 이제 모델 성능 향상은 추측이 아니라 자본과 인프라 투입량에 비례하는 계산의 영역이 됐다.

반면 기업용 AI 구축 팀은 모델 전체를 다시 학습시키는 대신 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 구조를 선택한다. RAG는 사전 학습된 생성 모델에 밀집 리트리버(Dense Retriever, 벡터 유사도 기반 검색기)와 문서 인덱스를 결합한 형태다. 리트리버가 외부 문서 저장소에서 질문과 의미적으로 유사한 텍스트 조각을 먼저 찾아내면, 생성 모델은 이 검색 결과와 질문을 함께 받아 최종 답변을 작성한다.

매일 업데이트되는 사내 규정이나 최신 시장 보고서를 LLM에 매번 학습시키는 것은 불가능하다. RAG는 모델 파라미터 외부에 존재하는 최신 정보나 특정 도메인 지식을 실시간으로 참조하므로, 인덱스에 포함된 데이터라면 즉시 답변에 반영할 수 있다. 이는 모델이 잘못된 정보를 생성하는 환각 현상을 줄이고 답변의 근거를 명확히 제시하는 기반이 된다. 기업은 거대 모델을 직접 튜닝하는 리스크를 피하고 데이터 관리만으로 AI 성능을 제어하며 비용을 절감했다.

한국 AI 실무자를 위한 RAG와 정렬(Alignment)의 시사점

기업들은 이제 모델의 크기보다 실제 업무 적용 가능성에 집중한다. 실무 현장에서는 모델의 절대적 지능보다 데이터의 최신성과 정확한 근거 제시 능력이 비즈니스 가치를 결정한다.

LLM 구축 파이프라인은 정해진 기술적 순서를 따른다. 트랜스포머 구조를 이해하는 것에서 시작해, 방대한 데이터로 사전 학습을 진행하고 스케일링을 통해 모델의 기본 용량을 키운다. 다음으로 지시어 튜닝을 거쳐 사용자의 명령을 수행하는 어시스턴트 형태로 만든 뒤, 마지막 단계에서 RAG를 결합해 특정 도메인의 전문 지식을 입힌다. 이 순서를 무시하고 RAG만 도입하면 모델의 기본 추론 능력이 부족해 응답 품질이 떨어진다. 단계별 최적화가 누적되어야 최종 서비스의 신뢰도가 확보된다.

한국 AI 실무자에게 필요한 판단 기준은 파라미터 숫자가 아니라 RAG와 정렬(Alignment)을 통한 도메인 최적화다. 범용 모델을 가져와 기업 전용 데이터로 정교하게 다듬는 작업이 실제 경쟁력이 되며, 모델 자체의 성능 한계를 RAG로 보완하는 설계 능력이 실무자의 역량을 가르는 기준이 된다. 비즈니스 성과는 모델의 크기가 아니라 데이터 연결의 정밀도와 응답의 제어권에서 결정된다.

수식과 교과서의 장벽에 막혔던 LLM의 작동 원리는 다섯 단계의 결합으로 요약된다. 트랜스포머와 사전 학습, 스케일링, 지시어 튜닝, 그리고 RAG가 그 핵심이다.

이 진화 경로를 이해하면 최신 모델의 성능 한계를 정확히 짚어낼 수 있다. RAG 도입 시점과 모델 교체 주기를 결정하는 실무적 기준은 여기서 나온다. 환각과 사실의 경계는 이제 미지의 영역이 아니라 설계의 선택지다.