arXiv논문2026. 06. 05. 13:25

KV-Control: 궤적 제어형 텍스트-모션 생성을 위한 매개변수 효율적 K/V 주입 방식

요약

KV-Control은 동결된 텍스트-모션 트랜스포머에 경량화된 K/V 주입 방식을 적용하여 정밀한 궤적 제어를 가능하게 하는 연구입니다. 기존 방식과 달리 모델 가중치를 보존하면서도 텍스트 스타일과 기하학적 제약 조건을 동시에 만족하는 3D 동작 생성을 지원합니다.

핵심 포인트

동결된 모델의 가중치를 보존하며 셀프 어텐션에 제어 메모리 주입
텍스트 스타일을 유지하면서 루트 경로 및 관절 궤적의 정밀 제어
PartVQ와 T-Concat을 통한 해부학적 정렬 및 어텐션 주소 지정
테스트 시간 최적화 비용을 줄인 매개변수 효율적 어댑터 방식

텍스트 조건부 (Text-conditioned) 3D 인간 동작 모델은 이제 프롬프트로부터 그럴듯한 동작을 합성해내지만, 실제 애니메이션 및 embodied-agent (체화된 에이전트) 워크플로우는 텍스트 단계에서 멈추는 경우가 드뭅니다. 캐릭터는 언어로 묘사된 보행 방식, 스타일, 의도를 유지하면서도 스케치된 루트 경로(root path)를 따라가거나, 말단 장치(end-effector) 목표 지점에 도달하거나, 다중 관절 궤적(multi-joint trajectory)을 만족해야 할 수도 있습니다. 이는 제어의 트레이드오프 (trade-off) 문제를 드러냅니다. 궤적 컨트롤러는 사전 학습된 텍스트 조건부 동작 사전 지식 (motion prior)을 덮어쓰지 않으면서도 정밀해야 하지만, 기존의 솔루션들은 레이어별 제어 권한을 다시 얻기 위해 생성기의 상당 부분을 복제하거나, 비용의 상당 부분을 테스트 시간 최적화 (test-time optimization)로 전가합니다.

우리는 동결된 (frozen) 마스크 텍스트-모션 트랜스포머 (masked text-to-motion transformers)를 위한 컴팩트한 어텐션 측 제어 인터페이스인 KV-Control을 소개합니다. 핵심 아이디어는 기하학적 제약 조건을 글로벌 포즈 토큰 (global pose token)을 통해 주입하거나 출력 측에서만 강제하는 대신, 셀프 어텐션 (self-attention) 내부의 메모리로서 사용할 수 있게 만드는 것입니다. 이 인터페이스를 지원하기 위해, 우리는 부분 토큰화된 동작 기질 (part-tokenized motion substrate)과 컨트롤러를 공동 설계했습니다: extbf{PartVQ}는 해부학적으로 정렬된 파트 코드북 (part codebooks)을 학습하고, T-Concat은 각 프레임-파트 토큰을 어텐션 주소 지정이 가능한 사이트로 노출하며, KV-Control은 사전 학습된 쿼리 스트림 (query stream), 텍스트 크로스 어텐션 (text cross-attention), FFN, 그리고 모든 백본 가중치를 보존하면서 모든 셀프 어텐션 레이어에 제어 조건부 키/값 (key/value) 메모리를 주입합니다.

결과적으로 생성된 어댑터 (adapter)는 공유된 궤적 인코더 (trajectory encoder) 위에 학습 가능한 주입 매개변수만을 추가할 뿐이지만, 상속된 정밀화 프로토콜 (refinement protocol) 하에서 텍스트 조건부 동작 품질을 유지하면서도 루트 및 다중 관절 제약을 센티미터 미만의 정확도로 추적합니다. KV-Control은 궤적 조건화를 경량 메모리 검색 (memory retrieval)으로 재정의하여, 텍스트-모션 생성을 위한 작고 정밀하며 투명한 제어 인터페이스를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

KV-Control: 궤적 제어형 텍스트-모션 생성을 위한 매개변수 효율적 K/V 주입 방식

요약

핵심 포인트

댓글