옷을 접는 로봇을 만든다고 생각해보자. 예전에는 소매를 어디로 옮기고 얼마나 꺾어야 하는지 하나하나 명령어를 적어주었다. 하지만 옷감의 두께나 모양이 조금만 달라져도 로봇은 당황하며 멈춰버렸다. 왜 지금까지 로봇은 이렇게 단순한 일조차 어려워했을까.

2025년 61억 달러가 몰린 사람 모양 로봇(휴머노이드)

최근 사람 모양 로봇(휴머노이드) 분야에 엄청난 돈이 몰리고 있다. 2025년 한 해에만 61억 달러가 투자되었는데 이는 작년보다 4배나 많은 수치다. 과거의 로봇은 사람이 미리 짜놓은 규칙대로만 움직였다. 2014년에 나온 Jibo(가족과 대화하는 사회적 로봇)가 대표적이다. 이 로봇은 정해진 대답만 할 수 있어서 금방 지루해졌고 결국 회사가 문을 닫았다.

물론 최근에는 AI가 말을 만들어내면서 대화가 훨씬 자연스러워졌다. 하지만 정해진 규칙이 없다 보니 예상치 못한 위험도 생겼다. 일부 AI 장난감이 아이들에게 위험한 도구를 찾는 법을 알려주는 사고가 발생하기도 했다. 그럼에도 투자자들이 다시 로봇에 열광하는 이유는 로봇이 배우는 방식 자체가 완전히 바뀌었기 때문이다. 로봇이 똑똑해지려면 사람이 정해준 답이 아니라 스스로 배우는 능력이 필요했다.

가짜 세상에서 진짜 세상으로 넘어오는 법

로봇이 배우는 방식은 세 단계를 거쳐 변했다. 처음에는 사람이 모든 상황을 예측해 규칙을 적어주었다. 그 다음에는 가상 실험(시뮬레이션, 컴퓨터 속 가짜 세상에서 미리 해보는 것)을 통해 수백만 번 반복하며 정답을 찾는 방식을 썼다. OpenAI는 Dactyl(물건을 만지는 로봇 손)을 통해 이 방식을 시험했다. 가상 세계에서 큐브를 돌리는 연습을 수없이 반복하게 만든 것이다.

하지만 컴퓨터 속 세상과 실제 세상은 달랐다. 손가락 고무의 말랑함이나 빛의 반사가 조금만 달라도 로봇은 작동하지 않았다. 이를 해결하기 위해 환경 무작위 바꾸기(도메인 랜덤마이제이션, 가상 세계의 환경을 일부러 다양하게 바꿔서 연습시키는 방법)라는 기술이 등장했다. 일부러 가짜 세상을 엉망으로 만들어 연습시키면, 로봇이 웬만한 실제 환경에서도 당황하지 않게 된다. 결국 로봇 학습의 핵심은 가짜 세상과 진짜 세상의 간격을 줄이는 일이었다.

조건문 수천 줄을 대체하는 예측 모델

이제 로봇은 거대 언어 모델(LLM, 엄청나게 많은 글을 읽고 말을 배우는 AI)과 비슷한 방식으로 움직인다. LLM이 다음에 올 단어를 예측하듯, 로봇은 다음에 취해야 할 행동을 예측한다. 로봇이 보는 사진, 센서가 느끼는 감각, 관절의 위치를 데이터로 입력하면 AI가 다음 1초 동안 움직여야 할 모터 명령어를 바로 계산해낸다.

이 변화는 실제 로봇의 작동 코드를 완전히 바꾼다. 예전에는 만약 옷이 돌아가 있다면 이렇게 움직이라는 조건문이 수천 줄 필요했다. 하지만 이제는 데이터 기반의 모델 하나가 그 모든 상황을 처리한다. 사람이 일일이 규칙을 짜는 것이 아니라 AI가 수많은 데이터 속에서 가장 정답에 가까운 움직임을 찾아내는 구조로 바뀐 것이다. 이제 로봇의 코드는 사람이 짠 규칙이 아니라 AI가 계산한 확률로 움직인다.

로봇은 이제 정해진 길을 걷는 기계에서 스스로 세상을 배우는 존재로 변하고 있다.