본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 01. 11:15

MultiAct: 복합 텍스트를 통한 텍스트-투-모션 생성

요약

MultiAct는 복합적인 텍스트 프롬프트를 처리할 때 발생하는 의미론적 붕괴 문제를 해결하기 위한 새로운 텍스트-투-모션 합성 프레임워크입니다. 재학습 없이 추론 단계에서 크로스 어텐션 점수를 적응적으로 조절하여 여러 동작이 포함된 명령을 정확하게 구현합니다.

핵심 포인트

  • 복합 프롬프트 입력 시 발생하는 단일 동작 편향 문제 해결
  • 재학습이나 아키텍처 수정 없는 추론 시간 기반 프레임워크
  • 경량 보조 결정 체계를 통한 최적의 어텐션 강화 매개변수화
  • 기존 모델 대비 향상된 의미론적 커버리지와 움직임 사실성

최근 몇 년 동안 텍스트-투-모션(Text-to-motion) 생성이 빠르게 발전하면서 애니메이션 및 인간-컴퓨터 상호작용을 위한 표현력이 풍부한 인터페이스를 제공하고 있습니다. 하지만 현재 모델들은 동시에 발생하는 여러 동작을 설명하는 프롬프트(prompt)를 처리할 때 여전히 취약합니다. 모델들은 복합적인 설명의 모든 구성 요소를 실현하기보다는, 단일 지배적 동작에 우선순위를 두고 나머지 부분을 무시하는 경향이 있어 불완전하거나 모호한 움직임을 초래합니다. 본 논문에서는 MultiAct를 제안합니다. 이는 사전 학습된 모션 생성기(motion generator)에 재학습이나 아키텍처 수정 없이 직접 작동하는, 비쌍(unpaired)의 추론 시간(inference-time) 기반 구성적 텍스트-투-모션 합성 프레임워크입니다. 저희 방법은 부족하게 표현된 프롬프트 구성 요소와 관련된 크로스 어텐션 점수(cross-attention scores)를 적응적으로 증폭함으로써 의미론적 붕괴(semantic collapse)에 대응합니다. 효과적인 변조는 어떤 토큰과 레이어를 목표로 할지 등 프롬프트별 선택에 따라 달라진다는 점을 인지하고, 가장 효과적인 어텐션 강화 매개변수화(attention-strengthening parametrization)를 결정하는 경량 보조 결정 체계(lightweight auxiliary decision scheme)를 도입합니다. 광범위한 정량적 및 정성적 평가 결과는 MultiAct가 복합 프롬프트에서 기존 기준 모델들을 일관되게 능가하며, 움직임의 사실성을 유지하면서 의미론적 커버리지(semantic coverage)를 개선함을 입증합니다. 프로젝트 페이지: https://natsala13.github.io/multiact.github.io.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0