arXiv논문2026. 06. 08. 10:33

파운데이션 모델 에이전트의 Sim-to-Real Gap: 통합된 MDP 관점

요약

파운데이션 모델 에이전트가 시뮬레이션과 실제 환경 간의 격차(Sim-to-Real Gap)로 인해 겪는 문제를 MDP 관점에서 분석합니다. 관측, 행동, 전이, 보상의 네 가지 요소를 중심으로 격차를 공식화하고, 이를 해결하기 위한 연구 의제와 도메인 무작위화 등의 솔루션을 제안합니다.

핵심 포인트

Sim-to-Real Gap을 MDP의 4가지 요소로 구조화
파운데이션 모델 에이전트의 강건성 문제 해결 방안 제시
도메인 무작위화 등 고전적 제어 이론의 도입 옹호
신뢰할 수 있는 에이전트를 위한 표준화된 벤치마크 목표

파운데이션 모델 (Foundation model) 에이전트가 실제 세계의 의사결정을 위해 점점 더 많이 배치되고 있지만, Sim-to-Real Gap (시뮬레이션과 실제 환경 간의 격차) 문제로 어려움을 겪고 있습니다. 로보틱스 (Robotics) 및 고전 제어 (Classical control) 분야는 이 격차를 해결하기 위한 성숙한 프레임워크를 갖추고 있는 반면, 파운데이션 모델 커뮤니티는 에이전트의 강건성 (Robustness)을 완전히 새로운 현상으로 취급하고 있습니다. 본 논문은 파운데이션 모델 에이전트의 평가 및 학습 격차를 관측 (Observation), 행동 (Action), 전이 (Transition), 보상 (Reward)을 포함한 마르코프 결정 과정 (Markov Decision Process, MDP)의 네 가지 요소를 중심으로 구조화된 고전적인 Sim-to-Real 문제로 공식화할 것을 제안합니다. 본 논문에서 우리는 고전적인 불일치 사항들을 파운데이션 모델 도메인으로 변환하는 포괄적인 연구 의제를 설정하고, 도메인 무작위화 (Domain randomization)와 같은 확립된 솔루션의 채택을 옹호합니다. 우리는 올바른 의미론적 의도 (Semantic intent)에도 불구하고 관측 공간 (Observation space)의 격차가 어떻게 운영상 유효하지 않은 행동 (Invalid actions)으로 이어지는지를 보여주기 위해 다국어 도구 호출 (Multilingual tool calling)과 같은 구체적인 사례를 제공합니다. 궁극적으로 이 의제는 패러다임의 전환을 유도하여, 신뢰할 수 있는 실제 응용 분야를 위한 차세대 고신뢰 에이전트를 육성하기 위한 통합된 어휘와 표준화된 스트레스 테스트 벤치마크를 산출하는 것을 목표로 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

파운데이션 모델 에이전트의 Sim-to-Real Gap: 통합된 MDP 관점

요약

핵심 포인트

댓글