"said Jensen Huang, founder and CEO of NVIDIA." 젠슨 황은 NVIDIA와 Ineffable Intelligence(강화학습 전문가 데이비드 실버가 설립한 AI 연구소)의 엔지니어링 협력을 발표하며 이 말을 남겼다. 이번 파트너십은 단순한 기술 지원을 넘어 대규모 강화학습을 위한 인프라를 공동 설계하는 것을 목표로 한다. 이제 AI는 인간이 이미 알고 있는 데이터를 학습하는 단계를 넘어 스스로 새로운 지식을 찾는 영역으로 진입하고 있다.

Grace Blackwell과 Vera Rubin 기반의 인프라 구축

NVIDIA는 런던 기반의 AI 랩인 Ineffable Intelligence(강화학습의 선구자 데이비드 실버가 설립한 연구소)와 손을 잡았다. 양사는 대규모 강화학습(시행착오를 통해 스스로 학습하는 AI 시스템)을 위한 전용 파이프라인을 구축한다. 이 작업은 현재 NVIDIA Grace Blackwell(최신 AI 가속기 플랫폼)에서 시작되었으며, 차세대 플랫폼인 NVIDIA Vera Rubin(출시 예정인 차세대 AI 하드웨어)의 초기 탐색 작업에도 포함된다.

개발자 커뮤니티에서는 이번 협력이 알파고의 설계자인 데이비드 실버가 다시 전면에 등장했다는 점에 주목하고 있다. 실버는 인간이 이미 알고 있는 지식을 학습하는 단계는 사실상 해결된 문제라고 정의했다. 이제는 시스템이 스스로 경험을 통해 새로운 지식을 발견하는 슈퍼러너(지속적으로 경험하며 학습하는 시스템)를 만드는 것이 핵심 과제다.

데이터 흐름의 변화와 하드웨어 병목 해결

기존의 사전 학습(이미 정해진 인간의 데이터셋을 모델에 흘려보내는 방식)은 데이터의 흐름이 고정되어 있었다. 하지만 강화학습 워크로드(작업 부하)는 시스템이 행동하고 관찰하며 점수를 매기고 업데이트하는 과정을 실시간으로 반복하며 데이터를 즉석에서 생성한다.

이런 루프 구조는 인터커넥트(장치 간 연결망), 메모리 대역폭, 서빙 방식에 사전 학습과는 전혀 다른 차원의 압박을 가한다. 특히 인간의 언어나 기존 데이터와는 완전히 다른 형태의 풍부한 경험 데이터를 처리해야 하므로, 새로운 모델 아키텍처(모델의 구조)와 학습 알고리즘이 필수적이다.

개발자들이 체감하는 가장 큰 변화는 데이터 공급 방식의 전환이다. 정적인 데이터셋을 읽어오는 것이 아니라, 시뮬레이션과 경험을 통해 실시간으로 생성되는 데이터를 하드웨어가 얼마나 빠르게 처리하고 피드백을 줄 수 있느냐가 성능의 척도가 된다. 이는 단순히 연산 속도를 높이는 것을 넘어, 데이터가 생성되고 모델에 반영되는 전체 경로를 다시 설계해야 함을 의미한다.

인간의 데이터를 모두 소진한 AI 시대에, 이제는 하드웨어가 스스로 지식을 창조하는 시뮬레이션 엔진이 되어야 한다.