arXiv논문2026. 06. 01. 11:15

MultiAct: 복합 텍스트를 통한 텍스트-투-모션 생성

요약

MultiAct는 복합적인 텍스트 프롬프트를 처리할 때 발생하는 의미론적 붕괴 문제를 해결하기 위한 새로운 텍스트-투-모션 합성 프레임워크입니다. 재학습 없이 추론 단계에서 크로스 어텐션 점수를 적응적으로 조절하여 여러 동작이 포함된 명령을 정확하게 구현합니다.

핵심 포인트

복합 프롬프트 입력 시 발생하는 단일 동작 편향 문제 해결
재학습이나 아키텍처 수정 없는 추론 시간 기반 프레임워크
경량 보조 결정 체계를 통한 최적의 어텐션 강화 매개변수화
기존 모델 대비 향상된 의미론적 커버리지와 움직임 사실성

최근 몇 년 동안 텍스트-투-모션(Text-to-motion) 생성이 빠르게 발전하면서 애니메이션 및 인간-컴퓨터 상호작용을 위한 표현력이 풍부한 인터페이스를 제공하고 있습니다. 하지만 현재 모델들은 동시에 발생하는 여러 동작을 설명하는 프롬프트(prompt)를 처리할 때 여전히 취약합니다. 모델들은 복합적인 설명의 모든 구성 요소를 실현하기보다는, 단일 지배적 동작에 우선순위를 두고 나머지 부분을 무시하는 경향이 있어 불완전하거나 모호한 움직임을 초래합니다. 본 논문에서는 MultiAct를 제안합니다. 이는 사전 학습된 모션 생성기(motion generator)에 재학습이나 아키텍처 수정 없이 직접 작동하는, 비쌍(unpaired)의 추론 시간(inference-time) 기반 구성적 텍스트-투-모션 합성 프레임워크입니다. 저희 방법은 부족하게 표현된 프롬프트 구성 요소와 관련된 크로스 어텐션 점수(cross-attention scores)를 적응적으로 증폭함으로써 의미론적 붕괴(semantic collapse)에 대응합니다. 효과적인 변조는 어떤 토큰과 레이어를 목표로 할지 등 프롬프트별 선택에 따라 달라진다는 점을 인지하고, 가장 효과적인 어텐션 강화 매개변수화(attention-strengthening parametrization)를 결정하는 경량 보조 결정 체계(lightweight auxiliary decision scheme)를 도입합니다. 광범위한 정량적 및 정성적 평가 결과는 MultiAct가 복합 프롬프트에서 기존 기준 모델들을 일관되게 능가하며, 움직임의 사실성을 유지하면서 의미론적 커버리지(semantic coverage)를 개선함을 입증합니다. 프로젝트 페이지: https://natsala13.github.io/multiact.github.io.

AI 자동 생성 콘텐츠

원문 바로가기

MultiAct: 복합 텍스트를 통한 텍스트-투-모션 생성

요약

핵심 포인트

댓글