arXiv논문2026. 06. 23. 11:09

FAST: 자율 주행을 위한 병렬 강화학습에서의 정렬된 샘플링 및 학습 프레임워크

요약

자율 주행 강화학습의 샘플링 효율성을 높이기 위한 새로운 병렬 프레임워크 FAST를 제안합니다. DPSA와 SMPO 기술을 통해 데이터 편향 없이 샘플링 병목 현상을 해결하며, 기존 방식 대비 최대 1.78배의 속도 향상을 달성했습니다.

핵심 포인트

자율 주행 강화학습의 샘플링 병목 및 스트래글러 효과 해결
DPSA 기술을 통한 동적 병렬 샘플링 정렬 및 동기화 유지
SMPO를 활용하여 보조 패딩 데이터로 인한 편향 방지
통계적 무편향성을 유지하며 실제 학습 속도 1.78배 향상

심층 강화학습 (Deep reinforcement learning)은 폐쇄 루프 (closed-loop) 자율 주행에 있어 중추적인 역할을 하지만, 샘플링 효율성 측면에서의 심각한 병목 현상으로 인해 제약을 받고 있습니다. 표준적인 병렬 샘플링 (parallel sampling)은 이를 완화하지만, 단일 환경의 조기 종료가 동기화된 배치 재초기화 (batch re-initialization)를 필요로 하여 샘플 활용도를 저하시키고 과도한 재초기화 지연 (re-initialization latency)을 초래하는 스트래글러 효과 (straggler effect)를 겪습니다. 이를 해결하기 위해, 우리는 폐쇄 루프 시뮬레이션에 맞춤화된 동기식 병렬 프레임워크인 FAST를 제안합니다. 구체적으로, FAST는 가상 지속 (virtual continuation)을 통해 종료된 에피소드를 연장함으로써 벡터화 동기화 (vectorization synchronization)를 유지하는 동적 병렬 샘플링 정렬 (Dynamic Parallel Sampling Alignment, DPSA)을 채택하여, 샘플링 루프를 개별 종료 상황으로부터 분리합니다. 병렬 클립 (parallel clips)의 종료율을 기반으로 전역 절단 (global truncation)을 동적으로 트리거함으로써, FAST는 데이터 다양성을 희생하지 않으면서도 조기 리셋 (premature resets)의 병목 현상을 효과적으로 제거합니다. 또한, 이론적 일관성을 엄격하게 유지하기 위해, 유효성 마스킹 (validity masking)과 적응형 손실 정규화 (adaptive loss normalization)를 활용하여 보조 패딩 데이터 (auxiliary padding data)로부터 발생하는 편향을 무효화하는 스케일드 마스크 패딩 최적화 (Scaled Mask-Padding Optimization, SMPO)를 통합합니다. 실증적 평가 결과, FAST는 통계적 무편향성 (statistical unbiasedness)을 유지하면서도 단일 클립 (single-clip) 베이스라인 대비 최소 1.78배의 실제 시간 (wall-clock) 속도 향상을 달성함을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

FAST: 자율 주행을 위한 병렬 강화학습에서의 정렬된 샘플링 및 학습 프레임워크

요약

핵심 포인트

댓글