arXiv논문2026. 06. 26. 10:50

인컨텍스트 모델 예측 생성 (In-Context Model Predictive Generation): 언어 모델에서 물리 엔진으로의 오픈

요약

언어 모델의 의미론적 해석 능력과 물리 시뮬레이션의 사실성을 결합한 ICMPG 프레임워크를 제안합니다. LLM을 플래너로 사용하고 물리적 피드백을 통해 동작을 정제함으로써, 재학습 없이도 물리적으로 타당한 동작 합성을 가능하게 합니다.

핵심 포인트

LLM의 의미론적 충실도와 물리 엔진의 사실성 간 트레이드오프 해결
MPC 구조를 차용한 CAMG와 MPG 모듈 기반의 폐쇄 루프 생성 방식
추가적인 정책 재학습 없이도 물리 환경에 적응하는 제로샷 능력
다양한 LLM 백본과 통합 가능한 유연한 프레임워크 설계

텍스트 설명을 통해 인간의 동작을 합성하는 것은 몰입형 디지털 애플리케이션을 위해 필수적이지만, 기존 방법들은 의미론적 충실도(semantic fidelity)와 물리적 사실성(physical realism) 사이의 지속적인 트레이드오프(trade-off) 문제에 직면해 있습니다. 대규모 언어 모델(LLM) 기반 접근 방식은 다양한 오픈 보캐블러리(open-vocabulary) 지시사항을 해석하고 상위 수준의 행동 계획을 구성할 수 있지만, 물리적 제약 조건을 위반하는 동작을 생성하는 경우가 많습니다. 물리 인지 모델(Physics-aware models)은 시뮬레이션이나 제어를 통해 사실성을 향상시키지만, 의미론적 복잡성, 세밀한 지시사항, 그리고 새로운 개념을 처리하는 데 어려움을 겪습니다. 이러한 격차를 해소하기 위해, 우리는 언어 모델 계획(language-model planning)과 추론 시점의 물리적 피드백(inference-time physical feedback)을 통합하는 프레임워크인 인컨텍스트 모델 예측 생성(In-Context Model Predictive Generation, ICMPG)을 제안합니다. ICMPG는 동작 합성을 두 개의 모듈을 가진 모델 예측 제어(Model Predictive Control, MPC)와 유사한 프로세스로 재구성합니다. 문맥 인식 동작 생성(Context-Aware Motion Generation, CAMG) 모듈은 LLM을 플래너(planner)로 사용하여 텍스트 명령을 분해하고 동작 토큰(motion tokens)으로부터 후보 동작 시퀀스를 생성합니다. 모델 예측 생성(Model Predictive Generation, MPG) 모듈은 물리 시뮬레이션과 의미론적 정렬(semantic alignment)을 통해 이러한 후보들을 평가하고, 결합된 보상(composite reward)을 추정하며, 후속 생성 단계를 안내할 최적의 시퀀스를 선택합니다. 오픈 루프(open-loop) 생성과 달리, 이러한 폐쇄 루프(closed-loop) 정제 과정을 통해 ICMPG는 작업별 정책 재학습(task-specific policy retraining) 없이도 입력된 의미론과 시뮬레이션된 물리 환경 모두에 동작을 적응시킬 수 있습니다. 표준 및 제로샷(zero-shot) 오픈 보캐블러리 설정에 걸친 광범위한 실험을 통해, ICMPG가 다양한 명령에 대해 견고하게 일반화되며 평가된 벤치마크에서 대표적인 베이스라인(baselines)보다 물리적으로 더 타당하고 의미론적으로 더 충실한 동작을 생성함을 보여줍니다. 이 프레임워크는 서로 다른 LLM 백본(backbones)을 통합할 수 있을 만큼 유연성을 유지하면서 의미론적 해석과 물리 시뮬레이션 사이의 가교 역할을 수행하여, 더욱 다재다능하고 제어 가능한 텍스트 기반 동작 합성을 가능하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

인컨텍스트 모델 예측 생성 (In-Context Model Predictive Generation): 언어 모델에서 물리 엔진으로의 오픈

요약

핵심 포인트

댓글