arXiv논문2026. 05. 20. 12:03

Embodied LLM 탐색: 관찰 충실도가 높을 때 문제 해결 능력이 저하되는 현상

요약

본 연구는 체화된 LLM(Embodied LLM) 에이전트가 완벽한 정답 관찰(ground-truth symbolic observations)을 제공받을 때 오히려 문제 해결 능력이 저하되는 역설적인 현상을 분석합니다. 실험 결과, 적절한 수준의 노이즈가 포함된 RGB 입력 환경에서 에이전트의 성능이 가장 높게 나타났으며, 이는 노이즈가 반복적인 행동 루프를 줄여주는 역할을 하기 때문입니다. 결과적으로 LLM의 성능 평가 시 단순 성공률뿐만 아니라 지각 오류와 추론 실패 간의 상호작용을 고려해야 함을 시사합니다.

핵심 포인트

완벽한 심볼릭 관찰 데이터가 제공될 때 LLM 에이전트의 성능이 오히려 하락하는 현상 발견
가공되지 않은 RGB 입력 환경에서 에이전트가 가장 높은 문제 해결 성능을 보임
인지된 행동 결과에 적절한 노이즈(약 40%의 뒤집기 확률)를 추가할 때 성공률이 최대 2.85배 증가
노이즈의 이점은 에이전트의 불필요한 반복 행동 루프를 감소시키는 것과 밀접한 관련이 있음
LLM의 성능 지표가 단순 성공률을 넘어 지각 및 추론 과정의 복합적인 상호작용을 반영해야 함을 강조

대규모 언어 모델 (Large Language Models, LLMs)은 로봇 시스템을 위한 인지 구성 요소로 점점 더 많이 제안되고 있지만, 이들의 불투명한 의사 결정 과정은 폐쇄 루프 (closed-loop) 체화된 작업 (embodied tasks)에서의 성공 또는 실패를 설명하기 어렵게 만듭니다. 경험적 AI 방법론 (empirical AI methodology)에 따라, 본 연구에서는 에이전트가 사용할 수 있는 정보를 변화시키고 그에 따른 행동 변화를 측정함으로써 체화된 LLM 에이전트의 행동을 행동학적으로 연구합니다. 숨겨진 상호 의존성을 가진 순차적 기계 퍼즐인 Lockbox를 사용하여, 물리적 로봇 설정에서 RGB, RGB-D 및 정답 심볼릭 관찰 (ground-truth symbolic observations)을 통해 LLM을 평가하고, 통제된 시뮬레이션을 사용하여 결과적인 행동을 탐색합니다. 직관과는 반대로, 에이전트는 가공되지 않은 RGB 입력 하에서 가장 높은 성능을 보였으며, 완벽한 정답 관찰 하에서 가장 낮은 성능을 보였습니다. 시뮬레이션에서 우리는 인지된 행동 결과 (perceived action outcomes)를 무작위로 뒤집음으로써 이 효과를 탐색하였으며, 적당한 노이즈가 성능을 향상시킨다는 것을 발견했습니다. 노이즈가 없는 베이스라인 (baseline) 대비 성공률이 2.85배 증가하는 40%의 뒤집기 확률에서 성능이 정점에 도달했습니다. 추가 분석을 통해 이러한 이득이 반복적인 행동 루프 (repetitive action loops)의 감소와 연관되어 있음을 확인했습니다. 이러한 발견은 성공률만으로는 LLM을 평가하기에 불충분하다는 것을 시사하며, 측정된 성능이 견고한 문제 해결 능력보다는 지각 오류 (perceptual errors)와 추론 실패 (reasoning failures) 사이의 상호작용을 반영할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Embodied LLM 탐색: 관찰 충실도가 높을 때 문제 해결 능력이 저하되는 현상

요약

핵심 포인트

댓글