TML-Interaction-Small, 200ms 마이크로턴으로 실시간 협업 구현

학부 연구생 한 명이 모델에게 자신의 발음을 듣는 즉시 고쳐달라는 요청을 직접 해봤다고 한다. 모델은 사용자가 말을 끝내기 전에도 실시간으로 개입해 오류를 짚어냈다. AI가 인간의 대화 리듬에 완전히 동기화된 순간이다.

TML-Interaction-Small의 200ms 마이크로턴 설계

Thinking Machines Lab(AI 연구소)은 TML-Interaction-Small 모델을 공개했다. 이 모델은 200ms(0.2초) 단위의 마이크로턴(아주 짧은 입력-출력 주기) 설계를 채택했다. 입력과 출력을 연속 스트림으로 처리해 끼어들기와 동시 발화를 지원한다. 시스템은 실시간 응답을 담당하는 Interaction Model(상호작용 모델)과 장기 추론을 맡는 Background Model(배경 모델)로 나뉜다. 두 모델은 문맥을 공유하며 비동기적으로 작동한다. Interaction Model이 즉각적인 응답이 어려운 깊은 추론을 Background Model에 위임하는 구조다. 위임 중에도 Interaction Model은 사용자 앞에 남아 후속 질문에 답하며 맥락을 유지한다.

하네스를 버리고 모델 내부에 심은 상호작용성

예전에는 VAD(음성 활동 감지, 사용자가 말을 멈췄는지 판단하는 기술) 같은 외부 하네스(기능을 덧붙이기 위한 외부 틀)를 사용해 실시간처럼 보이게 흉내 냈다. 이제는 상호작용 기능이 모델 내부에 직접 내장됐다. 사용자가 말을 마칠 때까지 기다리지 않고 문맥에 따라 능동적으로 끼어든다. 텍스트, 오디오, 비디오를 동시에 입력받아 처리하는 조기 융합 구조를 사용한다. 오디오 신호는 dMel(디지털 멜-스펙트로그램, 소리를 이미지 형태로 변환한 데이터) 형태로 받아 가벼운 임베딩 레이어로 변환한다. 이미지는 40x40 패치로 나누어 hMLP(계층적 다층 퍼셉트론, 데이터를 효율적으로 압축하는 신경망)로 인코딩한다. 모든 컴포넌트는 트랜스포머와 함께 처음부터 공동 훈련되었다.

지연 시간 0.4초와 벤치마크의 지형 변화

개발자가 체감하는 가장 큰 변화는 응답 지연의 감소다. TML-Interaction-Small은 FD-bench V1 턴테이킹 지연에서 0.40초를 기록했다. FD-bench v1.5 평균 점수는 77.8점으로 GPT-realtime-2.0이나 Gemini-3.1-flash-live보다 높게 나타났다. FD-bench V3 Audio+Tools에서는 Background Agent 활성화 기준 응답 품질 82.8%를 기록했다. 추론 최적화를 위해 SGLang(LLM 추론 가속 라이브러리)에 스트리밍 세션 기능을 업스트림(개발된 코드를 원본 저장소에 반영)했다. GPU 메모리의 지속 시퀀스에 청크를 이어 붙여 메모리 재할당 오버헤드를 없앴다. NVLS(NVIDIA Link Steering, GPU 간 초고속 통신 기술)를 사용해 Blackwell(엔비디아의 최신 GPU 아키텍처) 환경에서 저지연 통신 커널을 구현했다. Harmbench(AI 안전성 측정 벤치마크) 텍스트 거절률은 99.0%를 달성했다.

이제 AI의 경쟁력은 단순한 지능의 높이가 아니라 인간의 호흡에 얼마나 밀착하느냐는 상호작용의 밀도로 결정된다.

TML-Interaction-Small, 200ms 마이크로턴으로 실시간 협업 구현

TML-Interaction-Small의 200ms 마이크로턴 설계

하네스를 버리고 모델 내부에 심은 상호작용성

지연 시간 0.4초와 벤치마크의 지형 변화

관련 기사