차선책 시연으로부터의 언어 비판 모방 학습 (Language-Critique Imitation Learning from Suboptimal

차선책 시연 (suboptimal demonstrations)으로부터의 모방 학습 (imitation learning)에 관한 기존 연구들은 일반적으로 신뢰도 추정치 (confidence estimates), 판별기 점수 (discriminator scores), 또는 중요도 가중치 (importance weights)와 같은 압축된 감독 신호 (supervision signals)에 의존합니다. 이러한 스칼라 (scalar) 신호들은 작업 진행 상황, 실패 모드 (failure modes), 또는 교정 동작 (corrective actions)에 대한 중간 추론 과정을 명시적으로 표현할 수 없기 때문에 본질적인 한계가 있습니다. 우리는 표현력이 풍부한 피드백이 스칼라로 붕괴되는 것을 방지하기 위해, 대신 자연어를 구조화된 감독 신호로 활용하는 차선책 시연으로부터의 모방 학습을 위한 언어 비판 (language-critique) 프레임워크를 제안합니다. 우리의 방법은 먼저 현재 진행 상황을 명시적으로 설명하고, 차선책 행동을 식별하며, 세밀한 교정 가이드를 제공하는 시연으로부터 언어 라벨 (language labels)을 구축합니다. 그런 다음, 이러한 구조화된 신호들을 스칼라로 축소하지 않고 이를 사용하여 정책 (policies)을 직접 학습시키는 언어 비판 손실 (language-critique loss)을 도입하며, 이를 행동 복제 (behavior cloning) 및 확산 정책 (diffusion policies) 모두에 적용하여 LC-BC 및 LC-DP를 구현합니다. 나아가 우리는 제안된 목적 함수 (objective)가 표준적인 가정 하에서 전문가 성능 격차 (expert performance gap)의 상한선 (upper-bounds)을 형성함을 보여주는 이론적 결과를 제공합니다. 경험적으로, 우리는 내비게이션 (navigation), 조작 (manipulation), 게임 플레이 (gameplay)를 아우르는 다양한 연속 제어 (continuous control) 작업에서 평가를 수행하였으며, 우리의 방법은 강력한 모방 학습 및 오프라인 강화 학습 (offline reinforcement learning) 베이스라인들을 일관되게 능가합니다. 이러한 결과는 언어가 차선책 데이터로부터 강건한 정책을 학습하기 위한 강력하고 구조화된 형태의 감독 역할을 할 수 있음을 입증합니다.

Insights

차선책 시연으로부터의 언어 비판 모방 학습 (Language-Critique Imitation Learning from Suboptimal

요약

핵심 포인트

댓글

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침