Thinking Machines가 모델에 상호작용성을 구축한 방법

2026년 5월 11일 자 Thinking Machines의 새로운 릴리스는 FD-bench V1 Turn-taking (차례 지키기) 벤치마크에서 엔드 투 엔드(end-to-end) 0.40초를 기록했습니다. 이는 GPT-realtime-2.0 (xhigh)보다 약 3배 빠르며, Gemini-3.1-flash-live (high) 지연 시간(latency)의 거의 절반 수준입니다. 하지만 지연 시간 수치는 표면적인 이야기일 뿐입니다. 이를 가능하게 만든 것은 아키텍처(architectural) 이야기입니다. 이 모델은 오디오, 비디오, 텍스트를 200밀리초(ms) 단위의 틱(ticks)으로 처리하며, 사용자와 가중치(weights) 사이에 별도의 차례 감지(turn-detection) 구성 요소가 존재하지 않습니다. thinkingmachines.ai에 게시된 이 포스트는 팀이 상호작용 모델(interaction models)이라고 부르는 모델 클래스에 대한 연구 프리뷰(research-preview) 발표입니다. 진지하게 고려해 볼 만한 프레이밍 질문(framing question)은 이것입니다: 상호작용성(interactivity)이 모델을 둘러싼 하네스(harness, 장치)가 아니라 모델 자체의 일부가 될 때 무엇이 변하는가? 아래의 세 섹션에서 그 답을 살펴봅니다.

200ms 틱(tick)
차례 기반(turn-based) 모델은 하나의 완전한 입력을 받고, 하나의 완전한 출력을 생성한 뒤 대기합니다. 상호작용 모델(interaction model)은 200ms의 입력을 받고 200ms의 출력을 생성하며, 다시 200ms, 그리고 또 그다음—입력과 출력 스트림이 동시에 실행됩니다. 모델은 "사용자의 차례가 끝났으니 이제 응답하라"라고 인식하지 않습니다. 대신 입력 청크(chunk), 출력 청크, 입력 청크, 출력 청크와 같이 인위적인 차례 경계를 준수할 필요가 없는 연속적으로 인터리브(interleaved, 교차)된 시퀀스를 봅니다. 이 설계에서 사라지는 것은 오늘날 대부분의 실시간 음성 시스템에서 사용자와 모델 사이에 존재하는 음성 활동 감지(voice-activity-detection, VAD) 하네스입니다. 차례 기반 모델은 사용자가 생각 중인지, 발언권을 양보하는지, 아니면 잠시 침묵 중인지 스스로 판단할 수 없습니다. 별도의 더 작은 구성 요소가 이를 판단하여 모델에 "진행(go)" 신호를 전달합니다. Thinking Machines는 '쓴 교훈(The Bitter Lesson)'을 인용하며, 모델 자체보다 지능이 낮은 하네스는 결국 모델에 의해 추월될 것이라고 주장합니다. 따라서 그들은 하네스를 제거했으며, 하네스가 표현할 수 없었던 것들—듣는 동안 말하기, 오디오 프롬프트 없이 시각적 신호에 반응하기—이 모델이 직접 수행할 수 있는 기능이 되었습니다.

오디오 및 비디오 경로는 의도적으로 가볍게 설계되었습니다. 오디오는 Whisper 스타일의 인코더(encoder)가 아닌, 얇은 임베딩 레이어(embedding layer)를 통해 dMel 특징(features)으로 들어옵니다. 이미지는 40×40 패치(patches)로 분할되어 hMLP에 의해 인코딩됩니다. 오디오 디코더(decoder)는 플로우 헤드(flow head)입니다. 임베딩(embedding), 이미지 패처(image patcher), 플로우 헤드(flow head), 그리고 메인 트랜스포머(transformer)라는 네 가지 구성 요소 모두가 처음부터 함께 공동 학습(co-trained)됩니다. 팀이 사용하는 용어는 인코더 프리 얼리 퓨전 (encoder-free early fusion)이며, 그 실질적인 효과는 상호작용 모델의 능력을 제한하는 별도의 전처리 모델(pre-processing model)이 존재하지 않는다는 것입니다.

두 개의 모델, 하나의 연속된 흐름: 200ms의 틱(tick)은 대화의 현장감을 유지하기에는 충분히 빠르지만, 지속적인 추론(reasoning), 도구 사용(tool use), 또는 더 긴 호흡의 작업을 수행하기에는 충분한 시간이 아닙니다. 시스템은 이러한 책임들을 두 개의 모델로 나눕니다. 상호작용 모델인 TML-Interaction-Small(12B의 활성 파라미터를 가진 2,760억 파라미터 규모의 MoE, Mixture-of-Experts)은 실시간 흐름을 유지하며 듣고, 말하고, 관찰합니다. 사용자가 더 깊은 작업이 필요한 무언가를 요청하면, 상호작용 모델은 비동기적으로 실행되는 백그라운드 모델(background model)에 작업을 위임합니다. 이러한 분리가 중요한 이유는 백그라운드 모델이 생각하는 동안 상호작용 모델이 멈추지 않기 때문입니다. 상호작용 모델은 후속 질문에 답하고, 새로운 입력을 받고, 대화의 흐름을 유지하며 대화를 계속 이어갑니다. 그리고 백그라운드 결과가 도착하면, 갑작스러운 문맥 전환(context switch)이 아니라 사용자가 현재 하고 있는 작업에 적합한 시점에 그 결과를 다시 엮어 넣습니다. 두 모델은 문맥(context)을 공유하므로, 백그라운드 모델은 정보가 누락된 쿼리에서 차갑게 시작하는 것이 아니라 전체 대화 내용을 상속받습니다. 사용자에게 나타나는 최종적인 효과는 다음과 같습니다: 계획(planning), 도구 사용, 그리고 에이전트 워크플로우(agentic workflows)를 사고하지 않는 모델의 응답 지연 시간(latency)으로 수행할 수 있다는 것입니다. 상호작용 모델 자체도 지능 벤치마크에서 경쟁력이 있습니다. 텍스트 IFEval에서 89.7, 음성 IFEval에서 82.1을 기록하여, 모든 것을 백그라운드로 떠넘기는 얇은 프론트엔드(front-end)가 아님을 증명했습니다.

격차가 나타나는 지점

표준 상호작용성 벤치마크(FD-bench, Audio MultiChallenge)에서 TML-Interaction-Small은 지능 대 지연 시간(latency)의 파레토 프런티어(Pareto frontier) 상에서 다른 모든 비-사고형(non-thinking) 모델보다 앞서 있습니다. 이는 실질적인 결과입니다. 하지만 더 시사하는 바가 큰 수치들은, 팀이 상호작용 모델이 기존의 하네스(harness)로 감싸진 턴제(turn-based) 모델이 할 수 없는 무엇을 할 수 있는지 테스트하기 위해 특별히 구축한 벤치마크에서 나타납니다.

모델이 사용자가 지정한 시간에 올바른 내용으로 발화를 시작하도록 요구하는 TimeSpeak에서, TML-Interaction-Small은 64.7점을 기록한 반면 GPT-realtime-2.0은 4.3점(최소 수준)을 기록했습니다. 언어적 신호(verbal cue)에 반응하여 적절한 순간에 말하는지를 테스트하는 CueSpeak에서는 81.7 대 2.9를 기록했습니다. 비디오의 적절한 순간에 "시작"과 "정지"를 말하도록 요구하는 방식으로 변형된 시간적 행동 로컬라이제이션(temporal-action-localization) 작업인 Charades에서는 시간적 IoU(temporal IoU)가 32.4 대 0을 기록했습니다. 응답하지 않는 베이스라인(baseline)이 25.0점을 기록하는 ProactiveVideoQA에서 TML-Interaction-Small은 33.5점을 기록했습니다. 이는 절대적인 수치로는 작은 상승이지만, 베이스라인이 본질적으로 "아무 말도 하지 않고 점수를 잃지 않는 것"임을 고려하면 의미 있는 상승입니다. 0에 가까운 점수는 보통 해당 벤치마크가 아키텍처가 표현할 수 없는 능력을 테스트하고 있음을 의미합니다.

핵심은 GPT-realtime-2.0이 음성 기능이 부족하다는 것이 아니라, 턴제(turn-based) 방식에 하네스(harness)를 더한 구조는 "듣는 동안 말하기" 또는 "오디오 프롬프트 없이 시각적 신호에 반응하기"를 표현할 수 있는 방식이 없다는 것입니다. 시간 정렬된 마이크로 턴(Time-aligned micro-turns)은 이를 가능하게 하며, 벤치마크의 격차는 그에 따라 발생합니다.

여전히 해결되지 않은 과제

이 포스트는 해결되지 않은 부분에 대해 솔직하게 밝히고 있습니다. 매우 긴 세션은 여전히 세심한 컨텍스트 관리(context management)가 필요합니다. 연속적인 오디오와 비디오는 컨텍스트를 빠르게 축적하기 때문입니다. 낮은 지연 시간(low latency)에서의 스트리밍은 네트워크 신뢰성에 민감하며, 연결이 불안정할 경우 사용자 경험이 급격히 저하됩니다. 현재의 TML-Interaction-Small은 소형 모델입니다. 더 큰 사전 학습된(pretrained) 모델들이 존재하지만, 현재 이 체제에서 서비스하기에는 너무 느리며, 팀은 올해 말에 이 모델들을 출시할 계획입니다. 연구 프리뷰(research preview)는 향후 몇 달 내에 공개될 예정이며, 그 이후에 더 광범위한 출시가 이어질 것입니다.

출처: Interaction Models: A Scalable Approach to Human-AI Collaboration, Thinking Machines Lab, 2026년 5월 11일.

Thinking Machines가 모델에 상호작용성을 구축한 방법

요약

핵심 포인트

댓글