오프라인 강화학습(Offline RL)에서의 일반화: 비관주의(Pessimism)의 양보다 구조가 더 중요하다

오프라인 강화학습 (Offline RL)에서 비관주의 (Pessimism)는 과대평가 편향 (Overestimation bias)을 상쇄하지만, 지나치게 보수적인 태도는 특정 형태의 일반화 (Generalization)를 방해하는 것과 연관되어 왔습니다. 그러나 본 논문에서는 문맥적 MDP (Contextual MDPs, CMDPs)에서 지나치게 비관적인 것이 본질적으로 최적의 일반화를 방해하지는 않는다는 것을 입증합니다. 대신, 우리는 성공적인 일반화가 비관주의의 양에 달려 있는 것이 아니라, 비관적 구조가 최적해의 기저에 깔린 대칭성 (Symmetries)을 존중하는지 여부에 달려 있다고 주장합니다. 우리는 약간의 비관성을 띠면서 비대칭적인 가치 함수 (Value function)가 지나치게 비관적이면서 대칭적인 가치 함수보다 일반화 성능이 더 낮을 수 있음을 증명합니다. 오프라인 RL에서 비관주의의 구조는 데이터셋 커버리지 (Dataset coverage)의 구조에 의해 결정됩니다. 따라서 대칭적인 가치 함수를 강제하는 것은 쉽지 않을 수 있으며, 데이터 증강 (Data Augmentation, DA)과 같은 기술이 필요할 수 있습니다. 우리의 이론적 결과에 영감을 받아, 우리는 DA가 증강된 데이터셋에 대해 (일반적인) 오프라인 학습을 수행하는 흔한 관행보다는, 정책 추출 (Policy extraction) 과정 중 일관성 손실 (Consistency loss)을 통해 적용될 때 가장 잘 적용될 수 있다고 주장합니다. 이는 회전 대칭성을 가진 Reacher 환경에서 IQL 및 CQL을 사용하여 경험적으로 검증되었습니다.

Insights

오프라인 강화학습(Offline RL)에서의 일반화: 비관주의(Pessimism)의 양보다 구조가 더 중요하다

요약

핵심 포인트

댓글

결정 피로가 당신의 AI 워크플로우를 망치고 있습니다 (해결책 포함)

MER-TRANS 2026에서의 HULAT2: 스페인어 쉬운 읽기(Easy-to-Read) 생성을 위한 제어된 멀티 에이전트 단순화

SkillFuzz: 오픈 스킬 마켓플레이스 내 암시적 의도 발견을 위한 스킬 조합 퍼징 (Fuzzing)

NLP의 미래는 NLP 컨퍼런스에 있지 않을 수도 있다: 자연어 처리 분야의 학술적 이동 패턴

결정 피로가 당신의 AI 워크플로우를 망치고 있습니다 (해결책 포함)

MER-TRANS 2026에서의 HULAT2: 스페인어 쉬운 읽기(Easy-to-Read) 생성을 위한 제어된 멀티 에이전트 단순화

SkillFuzz: 오픈 스킬 마켓플레이스 내 암시적 의도 발견을 위한 스킬 조합 퍼징 (Fuzzing)

NLP의 미래는 NLP 컨퍼런스에 있지 않을 수도 있다: 자연어 처리 분야의 학술적 이동 패턴