언어는 언제 중요한가? 다국어 지침이 비전-언어-행동 모델의 단계별 언어 민감도를 밝히다
요약
본 연구는 VLA 모델의 다국어 성능을 체계적으로 평가하여, 영어 외 언어 지침 하에서 심각한 성능 저하가 발생함을 밝혀냈습니다. 또한 작업 실행 단계별로 언어 의존성이 불균일하며, 이를 바탕으로 단계별 추론 시간 개입(step-wise inference-time intervention) 기법을 제안했습니다.
핵심 포인트
- VLA 모델의 다국어 성능은 영어 외 지침에서 크게 저하됨.
- 언어 영향력은 작업 실행 단계별로 불균일하게 나타남.
- 단계별 추론 시간 개입으로 언어 변화에 대한 성능 향상 가능.
Vision-Language-Action (VLA) 모델은 언어 조건부 로봇 조작에서 강력한 성능을 보여왔지만, 언어적 변화에 대한 견고성은 여전히 제대로 이해되지 않고 있습니다. 본 연구에서는 LIBERO 벤치마크를 열 가지 언어로 번역하여 VLA 모델의 최초 체계적인 다국어 평가를 수행했으며, 그 결과 영어 외 지침 하에서 심각한 성능 저하가 나타났고 성공률이 30~50%까지 떨어지는 것을 밝혀냈습니다. 작업 실행에 대한 세밀한 분석을 통해, 우리는 언어 영향력이 단계별로 매우 불균일하다는 것을 발견했습니다. 즉, 특정 단계는 강한 언어 의존성을 보여 전체 작업 실패를 주도하는 반면, 다른 단계들은 대체로 언어와 무관합니다. 이러한 통찰력을 바탕으로, 우리는 단계별 추론 시간 개입(step-wise inference-time intervention)을 제안하여 단계별 언어 민감도에 따라 표현들을 정렬함으로써, 언어적 변화 하에서 성능을 크게 향상시킵니다. 우리의 결과는 VLA 모델의 언어 견고성이 근본적으로 단계별 제어 문제임을 나타내며, 신뢰할 수 있는 체화 에이전트(embodied agents)를 위해 시간적으로 구조화된 분석의 중요성을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기