arXiv논문2026. 06. 24. 10:14

Latent Bridge: 실시간 게임 에이전트를 위한 연속적 Slow-Fast 채널

요약

실시간 게임 에이전트를 위해 느린 추론형 VLM과 빠른 반응형 VLM을 결합하는 Latent Bridge 기술을 제안합니다. 텍스트 대신 임베딩 공간을 통해 정보를 전달하여 지연 시간을 줄이고 성능을 높였습니다.

핵심 포인트

추론형과 반응형 VLM의 장점을 결합한 Slow-Fast 채널 구조
텍스트 왕복 없이 임베딩 공간을 직접 투영하는 Latent Bridge 도입
Atari 및 MetaDrive 환경에서 기존 방식 대비 우수한 성능 입증
두 모델 결합 시 간섭 방지를 위해 단일 채널 사용 권장

일반적인 컴퓨터 사용을 위한 실시간 에이전트는 — 가장 까다로운 사례인 게임을 포함하여 — 수 초 동안의 계획을 세우면서도 수십 밀리초(ms) 내에 행동해야 합니다. 이 두 영역은 지연 시간-품질 트레이드오프(latency-quality tradeoff)의 양 끝단에 위치합니다. 추론형 VLM (Qwen3-VL-8B-Thinking)은 효과적으로 숙고하지만 응답당 약 1.5초가 소요되어, 15 Hz 제어 루프(control loop)에는 너무 느립니다. 반대로, 반응형 VLM (MiniCPM-o 4.5)은 밀리초 단위로 행동하지만 계획 중심의 작업에서는 성능이 떨어집니다. 우리는 동일한 규모(9B 반응형, 8B 추론형)를 가진 두 개의 동결된(frozen) 모델을 결합하며, 통신 채널만을 유일한 학습 가능한 구성 요소로 남겨둡니다. 표준적인 결합 방식은 텍스트 브리지 (Text Bridge, T)로, 느린 모델이 접미사(suffix)를 작성하면 빠른 모델이 이를 읽는 방식입니다. 우리는 LLaVA 스타일 방식으로 느린 모델의 잔차(residuals)를 빠른 모델의 입력 임베딩 공간(input-embedding space)으로 투영하여, 어떠한 텍스트 왕복(text round-trip)도 피하는 학습된 연속적 레이턴트 브리지 (Latent Bridge, L)를 도입합니다. 이 두 방식 모두 Fast-Only (F) 방식과 비교되었습니다. 7개의 Atari 게임과 주행 도메인 (MetaDrive)에서, 홀드아웃 시드(held-out seeds)에 대해 채널별로 액션 디코더(action decoder)를 튜닝한 결과, Latent Bridge는 모든 도메인에서 Text Bridge와 대등하거나 더 나은 성능을 보였습니다. 특히 두 게임(MsPacman +57%, RoadRunner +28%)에서 성능을 크게 향상시켰으며, 다른 곳에서도 안전하게 교체하여 사용할 수 있습니다. 두 채널을 결합하면 상호 파괴적인 간섭이 발생하여 (RoadRunner -96%), 하나만 사용해야 합니다. 이 이점은 매우 예측 가능합니다. 브리지는 느린 추론이 이미 빠른 반응보다 우세할 때(T > F)에만 도움이 됩니다. Fast-Only 대비 Latent 및 Text의 이득은 r=0.93으로 함께 움직입니다. MetaDrive는 통제된 부정적 사례(controlled negative)로, Text Bridge가 가치를 더하지 않기 때문에 Latent Bridge가 입증 가능할 정도로 무력하게 나타납니다. 우리는 리플레이 녹화본과 재현 가능한 파이프라인을 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Latent Bridge: 실시간 게임 에이전트를 위한 연속적 Slow-Fast 채널

요약

핵심 포인트

댓글