전문성 키우다 바보 되는 AI 막는다, 아마존 노바 포지의 최적화 기술

도메인 특화 학습의 함정과 치명적 망각 현상

거대언어모델(LLM)은 일반적인 작업에서 강력한 성능을 보이지만, 기업 내부 프로세스나 도메인 특화 용어, 독점 데이터에 대한 이해가 필요한 전문 작업에서는 한계를 드러낸다. 개발자가 모델에 좁은 범위의 도메인 데이터를 집중적으로 학습시키면, 모델은 사전 학습 단계에서 습득한 일반적인 능력을 덮어쓰게 된다. 이러한 현상을 치명적 망각(Catastrophic Forgetting)이라고 정의하며, 이는 도메인 외부 작업에 대한 성능 저하로 이어진다.

치명적 망각이 발생한 모델은 특정 분야의 전문성은 갖추게 되지만, 기본적인 지시 이행 능력과 추론 능력, 광범위한 지식을 상실한다. 실제 운영 환경에서 고객 지원 티켓으로 미세 조정된 모델이 모호한 요청에 대해 추론하지 못하거나, 일관성 있는 다회차 대화를 유지하지 못하는 결과가 이에 해당한다. 결국 모델 개발자는 도메인 지식을 학습하는 유연성과 일반 능력을 유지하는 안정성 사이의 트레이드오프(Trade-off) 문제를 해결해야 하는 과제에 직면한다.

아마존 노바 포지의 3단계 커스텀 파이프라인

아마존 노바 포지(Amazon Nova Forge)는 데이터 믹싱과 3단계 커스텀 파이프라인을 통해 도메인 지식 습득과 일반 추론 능력 유지를 동시에 달성한다. 이 파이프라인은 CPT(지속 사전 학습), SFT(지도 미세 조정), RFT(강화 미세 조정)의 세 단계로 구성되며, 세 과정을 순차적으로 모두 적용했을 때 가장 강력한 결과물을 생성한다. 각 단계는 데이터 가용성과 작업 유형에 따라 선택적으로 사용할 수 있다.

첫 번째 단계인 CPT는 라벨이 없는 텍스트를 통해 모델에 도메인 지식과 어휘를 가르친다. 베이스 모델이 작업에 필요한 도메인 지식이 부족할 때 필수적으로 수행하는 과정이다. 두 번째 단계인 SFT는 시연 데이터를 통해 모델이 특정 작업에서 보여야 할 구체적인 행동 방식을 학습시킨다. 마지막 단계인 RFT는 보상 신호를 활용해 모델의 성능을 최적화하며, 모델이 생성한 여러 후보 응답을 품질 기준에 따라 점수화하여 더 나은 응답을 강화하는 방식으로 작동한다.

데이터 믹싱 비율과 학습률의 정밀 제어

아마존 노바 포지는 기업의 전용 학습 데이터와 아마존 노바가 큐레이션한 데이터셋을 혼합하는 데이터 믹싱(Data Mixing) 기술을 통해 치명적 망각을 방지한다. 데이터 믹싱은 모델이 특정 도메인을 흡수하면서도 광범위한 추론 능력과 지시 이행 능력을 유지하게 만든다. 특히 학습 데이터의 상당 부분을 큐레이션 데이터로 유지하는 전략은 모델의 범용성을 보존하는 핵심 장치가 된다.

하이퍼파라미터 튜닝 중 가장 민감한 요소는 학습률(Learning Rate)로, 이는 각 학습 배치에 반응하여 모델의 가중치가 변경되는 정도를 제어한다. 학습률이 너무 높으면 모델이 최적 상태를 지나치는 오버슈팅이 발생하거나 베이스 능력을 빠르게 상실하여 학습이 불안정해진다. 반대로 학습률이 너무 낮으면 수렴 속도가 지나치게 느려져 컴퓨팅 자원을 낭비하게 된다.

데이터 믹싱을 적용할 경우 이러한 학습률의 민감도는 더욱 예민하게 작동한다. 노바 큐레이션 데이터와 사용자 데이터를 섞는 과정에서 기본 학습률을 임의로 수정하는 것은 학습 불안정성을 초래하는 가장 흔한 원인이 된다. 이에 아마존 노바 포지는 각 학습 기법의 상호작용을 고려하여 보정된 서비스 기본값(Service Defaults)을 제공하며, 이를 시작점으로 사용할 것을 권장한다.

체크포인트 선택을 통한 유연성과 안정성 확보

개발자는 데이터의 양과 작업 성격에 따라 모델의 학습 상태인 체크포인트를 선택하여 학습 효율을 결정한다. 체크포인트 선택은 학습률과 같은 세부 설정보다 결과에 더 결정적인 영향을 미치는 전략적 의사결정 단계다. 선택지는 크게 프리트레인(Pre-trained) 체크포인트와 포스트트레인(Post-trained) 체크포인트로 나뉜다.

방대한 양의 데이터셋을 보유하고 모델을 도메인에 맞게 완전히 개조하려는 경우 프리트레인 체크포인트를 사용한다. 이 버전은 지시 튜닝 전 상태이므로 유연성이 가장 높지만, 학습 후에는 지시 이행 능력이 사라지므로 반드시 SFT 과정을 거쳐 능력을 복구해야 한다. 반면, 학습 데이터가 적거나 빠른 성능 향상이 필요한 경우에는 포스트트레인 체크포인트를 선택한다. 이는 이미 정렬(Alignment)이 완료된 상태이므로 기본적인 대화 능력을 유지하며, 특히 LoRA(저차원 적응)와 같은 효율적인 학습 기법을 적용할 때 효과적이다.

RFT 최적화 조건과 인프라 운영 전략

강화 미세 조정(RFT)의 효과는 모델의 베이스라인 작업 정확도에 따라 결정된다. RFT는 모델이 이미 어느 정도 정답을 낼 수 있는 상태에서 보상 기반의 탐색을 통해 성능을 정교화하는 기법이다. 베이스라인 정확도가 너무 낮으면 보상을 줄 만한 양질의 예시가 부족해 학습이 불가능하며, 이 경우 SFT를 먼저 수행하여 기초 능력을 확보해야 한다. 반대로 정확도가 이미 매우 높다면 추가 학습의 효율이 떨어지며, 이때는 모델의 품질 범위 전반에서 변별력을 가질 수 있는 정교한 보상 함수(Reward Function)를 설계해야 한다.

이러한 커스텀 파이프라인을 구현하기 위해 아마존 세이지메이커(Amazon SageMaker)는 세 가지 환경을 제공한다. SageMaker Serverless는 UI 기반의 자동 컴퓨팅 프로비저닝을 제공하며, SageMaker AI training jobs(SMTJ)는 클러스터 관리 없이 운영 가능한 완전 관리형 경험을 제공한다. 대규모 분산 학습이 필요한 고급 시나리오에서는 Amazon SageMaker HyperPod를 통해 특화된 환경을 구축할 수 있다.

결국 성공적인 도메인 특화 모델 구축의 핵심은 메트릭 기반의 의사결정을 통해 도메인 성능과 범용성 사이의 최적 균형점을 찾는 것이다. 개발자는 적절한 체크포인트 선택, 데이터 믹싱 비율 유지, 보정된 학습률 적용을 통해 실패한 학습 런(run)으로 인한 막대한 컴퓨팅 비용 낭비를 방지하고 모델의 안정성을 확보할 수 있다.