차선책 시연으로부터의 언어 비판 모방 학습 (Language-Critique Imitation Learning from Suboptimal
요약
차선책 시연으로부터 자연어 피드백을 활용해 정책을 학습하는 '언어 비판(Language-Critique)' 프레임워크를 제안합니다. 기존의 스칼라 신호 대신 구조화된 언어 라벨을 사용하여 행동 복제 및 확산 정책의 성능을 높였습니다.
핵심 포인트
- 스칼라 신호의 한계를 극복하기 위해 자연어를 구조화된 감독 신호로 활용
- LC-BC 및 LC-DP를 통해 행동 복제와 확산 정책에 적용 가능
- 내비게이션, 조작, 게임 플레이 등 다양한 연속 제어 작업에서 우수한 성능 입증
- 제안된 목적 함수가 전문가 성능 격차의 상한선을 형성함을 이론적으로 증명
차선책 시연 (suboptimal demonstrations)으로부터의 모방 학습 (imitation learning)에 관한 기존 연구들은 일반적으로 신뢰도 추정치 (confidence estimates), 판별기 점수 (discriminator scores), 또는 중요도 가중치 (importance weights)와 같은 압축된 감독 신호 (supervision signals)에 의존합니다. 이러한 스칼라 (scalar) 신호들은 작업 진행 상황, 실패 모드 (failure modes), 또는 교정 동작 (corrective actions)에 대한 중간 추론 과정을 명시적으로 표현할 수 없기 때문에 본질적인 한계가 있습니다. 우리는 표현력이 풍부한 피드백이 스칼라로 붕괴되는 것을 방지하기 위해, 대신 자연어를 구조화된 감독 신호로 활용하는 차선책 시연으로부터의 모방 학습을 위한 언어 비판 (language-critique) 프레임워크를 제안합니다. 우리의 방법은 먼저 현재 진행 상황을 명시적으로 설명하고, 차선책 행동을 식별하며, 세밀한 교정 가이드를 제공하는 시연으로부터 언어 라벨 (language labels)을 구축합니다. 그런 다음, 이러한 구조화된 신호들을 스칼라로 축소하지 않고 이를 사용하여 정책 (policies)을 직접 학습시키는 언어 비판 손실 (language-critique loss)을 도입하며, 이를 행동 복제 (behavior cloning) 및 확산 정책 (diffusion policies) 모두에 적용하여 LC-BC 및 LC-DP를 구현합니다. 나아가 우리는 제안된 목적 함수 (objective)가 표준적인 가정 하에서 전문가 성능 격차 (expert performance gap)의 상한선 (upper-bounds)을 형성함을 보여주는 이론적 결과를 제공합니다. 경험적으로, 우리는 내비게이션 (navigation), 조작 (manipulation), 게임 플레이 (gameplay)를 아우르는 다양한 연속 제어 (continuous control) 작업에서 평가를 수행하였으며, 우리의 방법은 강력한 모방 학습 및 오프라인 강화 학습 (offline reinforcement learning) 베이스라인들을 일관되게 능가합니다. 이러한 결과는 언어가 차선책 데이터로부터 강건한 정책을 학습하기 위한 강력하고 구조화된 형태의 감독 역할을 할 수 있음을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기