매일 아침 개발자 커뮤니티에는 특정 GPU 제조사의 독점 생태계를 벗어나려는 시도가 올라온다. 특히 의료 분야처럼 정확도가 생명인 모델을 다룰 때, 특정 하드웨어에 종속된 환경은 개발자들에게 큰 진입장벽으로 작용한다. 이번 주 깃허브(GitHub, 오픈소스 코드 저장소)에는 NVIDIA의 CUDA(GPU 가속을 위한 병렬 컴퓨팅 플랫폼) 없이 AMD의 ROCm(AMD GPU용 오픈 소프트웨어 플랫폼) 환경에서 의료용 질의응답 모델을 성공적으로 학습시킨 프로젝트가 등장해 뜨거운 관심을 받고 있다.
AMD Instinct MI300X와 ROCm을 활용한 MedQA 학습
이번 프로젝트는 의료용 객관식 문제를 풀고 임상적 추론까지 제공하는 MedQA(의료 질의응답 모델)를 AMD 하드웨어에서 구현했다. 핵심 장비인 AMD Instinct MI300X(192GB HBM3 메모리를 탑재한 고성능 가속기)를 활용해 Qwen3-1.7B(알리바바가 공개한 17억 개의 파라미터를 가진 소형 언어 모델)를 미세 조정했다. 학습 과정은 데이터 로딩부터 어댑터 내보내기까지 전 과정을 ROCm 환경에서 수행했으며, CUDA 관련 코드는 단 한 줄도 포함되지 않았다. 학습에는 2,000개의 샘플이 사용되었으며, MI300X 환경에서 약 5분 만에 학습이 완료되었다.
export HSA_OVERRIDE_GFX_VERSION=9.4.2
export ROCM_PATH=/opt/rocm
export TORCH_HIP_ARCH_LIST=gfx942기존 CUDA 중심 환경과의 차이점
예전에는 의료 AI 모델을 학습하려면 NVIDIA GPU와 CUDA 라이브러리 설치가 필수적이었고, 메모리 부족 문제를 해결하기 위해 4비트나 8비트 양자화(모델의 정밀도를 낮춰 용량을 줄이는 기술)를 강제로 적용해야 했다. 이제는 MI300X의 192GB VRAM 덕분에 양자화 없이 fp16(16비트 부동소수점) 정밀도로 모델을 온전히 학습할 수 있다. 특히 HuggingFace(AI 모델과 데이터셋을 공유하는 플랫폼)의 Transformers(AI 모델을 쉽게 불러오는 라이브러리), PEFT(모델의 일부만 학습시켜 효율을 높이는 라이브러리), TRL(강화학습 라이브러리) 등 주요 생태계가 ROCm과 매끄럽게 연동된다는 점이 입증되었다. LoRA(Low-Rank Adaptation, 모델의 가중치 일부만 학습하는 효율적 기법)를 적용해 전체 15억 개의 파라미터 중 약 220만 개만 학습함으로써 메모리 사용량을 획기적으로 줄였다.
python
추론 시 LoRA 어댑터 결합 예시
from peft import PeftModel
from transformers import AutoModelForCausalLM
base_model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3-1.7B")
model = PeftModel.from_pretrained(base_model, "path/to/adapter")
개발자가 바로 체감하는 변화는 하드웨어 제약에서 벗어난 자유로운 실험 환경이다. 4비트 양자화 과정에서 발생하는 데이터 손실이나 아티팩트(오류) 걱정 없이 원본 정밀도를 유지하며 학습할 수 있게 되었다. 또한, 공식 저장소를 통해 공개된 어댑터를 활용하면 별도의 복잡한 설정 없이도 즉시 임상 추론 모델을 실행할 수 있다. HuggingFace Spaces에서 제공하는 CPU 기반 데모를 통해 누구나 모델의 성능을 직접 확인할 수 있다. 의료 AI의 핵심은 단순한 정답 선택이 아니라 그 이유를 설명하는 임상적 추론에 있으며, 이번 프로젝트는 오픈소스 하드웨어와 소프트웨어 조합으로도 충분히 고성능 의료 AI를 구축할 수 있음을 증명했다.




