수천 번의 피드백이 필요했던 로봇 학습의 상식과 한계
로봇에게 특정 동작을 가르치려면 사람이 수천 번 시범을 보이며 ‘이게 좋은 거야, 저건 나쁜 거야’라고 일일이 피드백을 줘야 한다는 것이 기존 로봇 공학의 상식이다. 피지컬 AI가 현실 세계에서 올바른 행동을 선택하기 위해서는 인간의 선호와 판단 기준이 반영된 ‘보상함수(Reward Function)’가 필수적이다. 하지만 기존 방식은 이 보상함수를 구축하기 위해 사람이 수천에서 수만 개의 행동 데이터를 직접 평가해야 하는 구조였다. 이러한 데이터 구축 과정은 막대한 시간과 인건비를 소모하며, 피지컬 AI의 실용화를 가로막는 핵심 장벽으로 작용했다. 특히 수술 로봇의 봉합 작업이나 자율주행차의 복잡한 교차로 통과처럼 정교한 판단이 필요한 영역일수록 데이터 확보 비용은 기하급수적으로 상승했다.
KAIST 연구팀, 소수 영상으로 의도 파악하는 VOTP 세계 최초 개발
KAIST 전기및전자공학부 유창동 교수 연구팀은 단 몇 개의 선호 영상만으로 AI가 인간의 판단 기준을 스스로 학습하는 ‘VOTP(Video-based Optimal TransPort Preference)’ 기술을 6월 10일 세계 최초로 개발했다. 연구팀은 사람이 몇 번의 시범만 보고도 새로운 일을 배우는 인지 방식에 주목하여, 방대한 데이터셋 대신 소수의 시각적 정보만으로 인간의 의도를 파악하는 알고리즘을 설계했다. VOTP는 몇 개의 좋은 사례 영상과 나쁜 사례 영상만으로 AI가 인간이 선호하는 행동 패턴을 스스로 추출하도록 돕는다. 이를 통해 연구팀은 기존의 고비용 데이터 평가 구조를 수 개의 영상 수준으로 압축하며 피지컬 AI 상용화의 핵심 난제를 해결했다.
ICML 2026 상위 0.7% 선정으로 입증한 글로벌 기술 우수성
KAIST 연구팀의 이번 성과는 세계 최고 권위의 AI 학회인 ICML(International Conference on Machine Learning) 2026에 채택되며 학술적 가치를 인정받았다. 해당 논문은 전체 제출 논문 2만 3,918편 가운데 상위 0.7%에 해당하는 168편에만 부여되는 구두(Oral) 발표 논문으로 선정됐다. 전기및전자공학부 Luu Minh Tung(루 민 퉁) 박사과정 학생이 제1저자로 참여했으며, 논문명은 Video-Based Optimal Transport for Feedback-Efficient Offline Preference-Based Reinforcement Learning이다. 이번 연구는 과학기술정보통신부 재원으로 정보통신기획평가원(IITP) 및 한국연구재단(NRF)의 지원을 받아 수행되었으며, 오는 7월 서울 코엑스에서 개최되는 학회에서 발표될 예정이다.
최적 수송 이론 기반의 선호 학습과 일반화 메커니즘
VOTP 기술의 핵심은 최적 수송(Optimal Transport) 이론을 기반으로 소수의 인간 선호를 담은 비디오에서 의도를 빠르게 파악하는 알고리즘에 있다. AI는 단순히 영상을 모방하는 수준을 넘어, 최적 수송 기반의 선호 학습을 통해 인간의 판단 기준을 수치화하여 학습 모델에 반영한다. 이 방식은 사람이 일일이 데이터를 평가하지 않아도 AI가 인간의 의도를 이해하고 이를 다양한 상황으로 확장해 학습할 수 있게 만든다. 연구팀은 데이터 양이 극도로 적은 상황에서도 AI가 새로운 환경에 맞춰 행동을 수정하고 확장하는 일반화 성능을 입증했다. 이는 데이터 구축의 효율성을 기존 방식 대비 수천 배 이상 높이는 결과로 이어진다.
로봇 팔부터 AI 에이전트까지, 피지컬 AI 전 분야 적용 가능성
연구팀은 로봇 팔 제어, 휴머노이드 로봇, 자율주행차, 스마트팩토리, 드론, 수술 로봇뿐 아니라 컴퓨터를 직접 조작하는 AI 에이전트까지 광범위한 실험을 통해 VOTP의 일반화 성능을 확인했다. 수술 로봇이 정교하게 조직을 봉합하거나 자율주행차가 복잡한 도로 상황을 판단하는 등 인간의 의도와 만족도를 학습해야 하는 모든 피지컬 AI 시스템에 이 기술을 적용할 수 있다. 기업은 이제 수만 건의 인간 평가 데이터를 구축하던 비용과 시간을 수 개의 영상 수준으로 줄일 수 있는 근거를 확보했다. 결국 피지컬 AI 도입의 성패는 데이터의 양이 아니라, 해당 알고리즘이 실제 자신의 작업 환경에서도 일반화되어 작동할 수 있는지를 판단하는 효율성에 달려 있다.



