200ms 단위 실시간 소통, 미라 무라티가 제시한 '인터랙션 모델'

기존의 턴제 방식과 차별화된 '인터랙션'

대화의 흐름을 끊는 지연 시간은 사용자 경험에서 가장 큰 비용으로 작용한다. OpenAI의 전 CTO이자 임시 CEO였던 미라 무라티는 Thinking Machines Lab(싱킹 머신즈 랩)을 통해 이 지연을 제거한 인터랙션 모델(interaction models)을 개발하고 있다. 이 모델은 오디오, 텍스트, 비디오 데이터를 200ms(밀리초) 간격으로 처리하는 구조를 갖췄다. 실시간 인터페이스 구현을 위해 지연 시간(Latency)의 기술적 기준점을 200ms로 설정하고 이를 확보하는 데 집중한다.

기존 AI 제품의 인터페이스는 프롬프트와 응답이 반복되는 턴제(Turn-based) 역학으로 정의된다. Thinking Machines Lab이 설계하는 모델은 이러한 단절된 방식 대신 연속적인 스트림 처리 구조를 채택했다. 사용자가 말을 하다가 갑자기 멈추거나, 생각 도중에 내용을 수정하거나, 의도적으로 일시 정지하는 인간 소통의 세밀한 질감을 실시간으로 포착하는 것이 목표다. 이는 단순한 처리 속도의 향상을 넘어 인간의 소통 방식을 그대로 모사하는 인터페이스를 지향한다.

미라 무라티는 기술적 구현 외에 AI 산업 전반의 의사결정 권한이 소수에게 집중된 현상을 지적했다. OpenAI를 포함한 업계 전반에 구조적인 견제 장치가 부재하다는 점에 우려를 표했다. 리더 개인의 성품이나 덕목(virtue)에 의존하는 방식은 한계가 있으며, 선의를 가진 조직이라도 시스템이 없으면 잘못된 결정을 내릴 수 있다는 분석이다. 따라서 개인의 역량보다 거버넌스(governance, 지배구조)라는 구조적 장치를 마련하는 데 더 많은 주의를 기울여야 한다고 강조했다.

기존 방식과 달라진 지점

급격한 경영진 교체 상황에서 조직을 유지하는 힘은 어디서 오는가. 미라 무라티는 2023년 11월 OpenAI의 혼란기 당시 자신의 개입이 없었다면 회사가 붕괴(imploded)했을 것이라고 주장했다. 5일간의 짧은 기간과 그 직후의 상황에서 미션과 팀을 보호하는 결정이 명확했다는 설명이다. 다만 의도의 명확함이 결과의 명확함과 동일하지는 않다는 점을 인정했다. 사후적으로는 더 많은 정보와 투명성, 그리고 더 나은 전환 계획을 위해 더 강하게 밀어붙였어야 했다는 평가를 덧붙였다.

데이터 처리 단위는 200밀리초(ms)로 쪼개진다. 인터랙션 모델(Interaction models, 실시간 상호작용 모델)은 오디오, 텍스트, 비디오 스트림을 이 간격으로 처리하여 인간의 의사소통 방식을 구현한다. 200밀리초 단위의 연속적인 데이터 처리를 통해 대화 중 발생하는 끼어들기나 생각 중의 수정, 심지어 생각하기 위한 일시 정지까지 인식한다. 인간 소통의 세밀한 질감을 실시간에 가깝게 포착하도록 설계된 구조다.

기존의 턴제(Turn-based) 응답 방식은 사용자의 입력이 완전히 종료된 후 답변을 생성하는 구조다. 인터랙션 모델은 이를 연속 스트림 처리 구조로 전환하여 데이터의 흐름을 유지한다. 오디오, 텍스트, 비디오라는 세 가지 모달리티를 동시에 200밀리초 단위로 처리함으로써 응답 지연을 최소화했다. 실시간 AI 인터페이스 구현을 위한 지연 시간의 기술적 기준점을 확보한 결과다.

투자금과 참여 투자자가 보여주는 신호

모델 출시로 즉각적인 존재감을 드러내는 팀이 있는 반면, 인프라 구축을 위해 은둔을 선택한 팀이 있다. 미라 무라티가 설립한 Thinking Machines Lab은 약 1년 반이라는 시간 동안 외부 노출을 최소화하며 철저히 배경에서 운영되었다. 이 기간 동안 팀은 자본 조달과 연구원 채용이라는 조직의 기초 체력을 확보하는 작업에 매진했다. 준비 기간의 길이는 제품의 외형적인 공개보다 개발 환경의 내실을 다지는 데 우선순위를 두었음을 보여준다.

이러한 은둔 기간의 결과물로 오픈소스 AI 모델의 파인튜닝(Fine-tuning, 특정 데이터셋으로 모델을 추가 학습시켜 성능을 최적화하는 과정)을 지원하는 API인 Tinker를 출시했다. Tinker는 사용자가 오픈소스 모델을 자신의 목적에 맞게 미세 조정할 수 있도록 돕는 인터페이스 역할을 수행한다. 단순한 모델 개발을 넘어 오픈소스 생태계 내의 모델들을 최적화하는 API 체인을 먼저 구축하여 배포한 셈이다.

AI의 미래를 결정론적인 유토피아나 디스토피아로 규정하는 이분법적 시각에 대해서는 명확히 선을 긋는다. 무라티는 어느 쪽의 결과도 미리 정해져 있지 않으며, 우리가 처한 현재의 대응이 그 방향을 결정짓는 핵심 변수라고 보았다. 지금 이 시기가 미래의 모습을 결정하는 결정적인 분기점이 된다는 판단이다.

특히 인간이 제어권(Wheel)을 너무 빨리 놓아버린다면 미래의 모습은 지금보다 더 나빠질 것이라고 경고했다. 기술의 자율적 진보에 모든 것을 맡기기보다 인간의 개입과 통제력을 적절한 시점까지 유지하는 것이 중요하다는 뜻이다. 이는 기술적 완성도보다 이를 다루는 인간의 제어 능력이 최종적인 결과값을 바꾼다는 관점을 반영한다.

미라 무라티의 씽킹 머신즈 랩은 오디오, 텍스트, 비디오를 200ms 간격으로 처리하는 인터랙션 모델을 개발 중이다. 턴제 응답이 아닌 연속 스트림 처리 구조를 통해 지연 시간을 극단적으로 낮추는 것이 핵심이다.

실시간 AI 인터페이스의 구현 가능성은 결국 200ms라는 지연 시간의 기술적 기준점을 확보했는지 여부로 결정된다. 인터랙션의 본질은 모델의 규모가 아니라 응답의 즉각성에서 정의된다.

200ms 단위 실시간 소통, 미라 무라티가 제시한 '인터랙션 모델'

기존의 턴제 방식과 차별화된 '인터랙션'

기존 방식과 달라진 지점

투자금과 참여 투자자가 보여주는 신호

관련 기사