arXiv논문2026. 06. 16. 11:39

분할 상환 이산 샘플링을 위한 근사 정책 최적화 (Proximal Policy Optimization)

요약

GFlowNet 프레임워크 내에서 구조화된 이산 확률 분포 샘플링을 위한 정책 경사 알고리즘을 연구합니다. GFlowNets에 PPO를 성공적으로 적용하여 분자 그래프 생성 등 다양한 벤치마크에서 수렴 속도와 데이터 효율성을 개선했습니다.

핵심 포인트

GFlowNets와 엔트로피 정규화 강화학습 간의 이론적 연결 도출
GFlowNets에 PPO를 적용한 최초의 연구 사례
베이스라인 학습 및 어드밴티지 추정 방법론 탐구
분자 그래프 생성 등에서 기존 방식 대비 높은 효율성 입증

본 논문은 Generative Flow Network (GFlowNet) 프레임워크 하에서 구조화된 이산 확률 분포 (structured discrete probability distributions)로부터 샘플링하기 위한 확률적 정책 (stochastic policies) 학습용 정책 경사 (policy gradient) 알고리즘을 탐구합니다. GFlowNets와 엔트로피 정규화 강화학습 (entropy-regularized reinforcement learning) 사이의 광범위한 이론적 연결을 바탕으로, 우리는 GFlowNets 학습을 위한 표준 정책 경사 알고리즘의 등가물을 도출하였으며, 베이스라인 학습 (baseline training) 및 어드밴티지 추정 (advantage estimation)을 포함한 다양한 방법론적 측면을 실험적으로 탐구합니다. 가장 중요한 점은, 본 연구가 GFlowNets에 근사 정책 최적화 (Proximal Policy Optimization, PPO)를 도출하여 성공적으로 적용한 첫 사례라는 것이며, 합성 에너지 (synthetic energies)부터 분자 그래프 생성 (molecular graph generation)에 이르는 벤치마크에서 표준 GFlowNet 학습 목적 함수와 비교했을 때 개선된 수렴 속도와 데이터 효율성을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

분할 상환 이산 샘플링을 위한 근사 정책 최적화 (Proximal Policy Optimization)

요약

핵심 포인트

댓글