arXiv논문2026. 06. 30. 12:13

지속 가능한 동작-언어 에이전트를 향하여: 점진적 동작 이해 및 생성을 위한 LoRA 변형 모델 연구

요약

동적 환경에서 동작-언어 에이전트의 파괴적 망각 문제를 해결하기 위한 LoRA 변형 모델 연구를 소개합니다. MoE 구조와 오토인코더 기반 라우터를 활용하여 새로운 동작 개념을 지속적으로 학습하면서도 기존 성능을 유지하는 방법을 제안합니다.

핵심 포인트

LoRA 변형 모델을 통한 안정성-가소성 트레이드오프 해결
오토인코더 기반 라우터를 활용한 전문가 혼합(MoE) 구조 제안
작업 레이블 없이도 효율적인 전문가 선택 가능
HumanML3D 기반 5개 작업 벤치마크 구축 및 검증
하드 전문가 선택이 소프트 블렌딩보다 우수한 성능 입증

동작-언어 에이전트(Motion-language agents)는 인간의 움직임을 이해(motion-to-text, M2T)하고 자연어로부터 이를 생성(text-to-motion, T2M)하는 양방향 능력을 모두 갖추어야 합니다. 파운데이션 모델(Foundational models)이 정적인 환경에서는 강력한 성능을 달성했지만, 동적인 환경에서 작동하는 자율 에이전트는 이전에 습득한 기술의 파괴적 망각(catastrophic forgetting) 없이 새로운 운동 스타일이나 특수 제스처와 같은 새로운 동작 개념을 지속적으로 통합해야 합니다. 본 연구에서는 순차적 작업 노출 하에서 양방향 동작-언어 학습의 안정성-가소성 트레이드오프(stability-plasticity trade-off)를 조사합니다. 동결된 거대 언어 모델(Large Language Model, LLM) 백본을 기반으로, 작업 간 간섭을 완화하도록 설계된 저차원 적응(Low-Rank Adaptation, LoRA) 변형 모델을 도입합니다. 특히 우리는 추론 시점에 작업별 전문가(expert)를 선택하기 위해 오토인코더(autoencoder) 기반의 라우터(router)를 사용하는 전문가 혼합(Mixture-of-Experts, MoE) 구조를 제안하며, 이를 통해 작업 레이블(task-label)이 필요하지 않도록 합니다. 이러한 방법들을 평가하기 위해, 동작 설명의 의미론적 클러스터링(semantic clustering)을 통해 HumanML3D에서 파생된 재현 가능한 5개 작업 벤치마크를 구축합니다. 실험 결과, M2T와 T2M 양방향 모두에서 높은 생성 및 캡셔닝(captioning) 품질을 유지하면서도 망각이 거의 제로에 가까움을 입증했습니다. 또한, 라우팅을 통한 하드 전문가 선택(hard expert selection)이 품질 지표에서 소프트 전문가 블렌딩(soft expert blending)보다 크게 우수함을 보여주었으며, 이는 지속 학습(continual learning) 환경에서 성능을 유지하기 위해 전문가의 격리(isolation)를 보존하는 것이 매우 중요하다는 것을 나타냅니다. 마지막으로, 토큰 수준의 정확도(token-level accuracy)와 다운스트림 생성 품질(downstream generation quality) 사이에 괴리가 발생할 수 있음을 관찰하였으며, 이는 평생 동작-언어 에이전트(lifelong motion-language agents)에 관한 향후 연구에서 더욱 포괄적인 평가 프로토콜이 필요함을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

지속 가능한 동작-언어 에이전트를 향하여: 점진적 동작 이해 및 생성을 위한 LoRA 변형 모델 연구

요약

핵심 포인트

댓글