
ProRL: 선제적 추천을 위한 강화학습 (RL) 문제 해결
요약
ProRL은 선제적 추천 시스템의 강화학습 문제를 해결하기 위한 새로운 방법론을 제안합니다. 단계별 보상 중심화와 위치별 베이스라인을 통해 기존 정책 경사 방식의 노이즈 문제를 극복하며, ICML 2026에 채택되었습니다.
핵심 포인트
- 표준 정책 경사 방식의 노이즈 및 보상 수집 문제 해결
- 단계별 보상 중심화 및 위치별 베이스라인 기술 적용
- 지도 학습, 휴리스틱, LLM 베이스라인 대비 성능 우위
- 학습되지 않은 추천 시스템에 대한 일반화 성능 입증
ProRL은 선제적 추천 (proactive recommendation)을 위한 강화학습 (RL) 문제를 해결합니다.
표준 정책 경사 (Standard policy gradients) 방식은 사용자 선호도를 유도할 때, 더 긴 경로가 더 높은 보상을 수집하게 되고 경사 (gradients)가 노이즈에 묻혀버리기 때문에 실패합니다.
ProRL은 단계별 보상 중심화 (stepwise reward centering)와 위치별 베이스라인 (position-specific baselines)을 통해 이 두 가지 문제를 바로잡습니다.
ICML 2026 채택
이 모델은 세 가지 실제 데이터셋에서 지도 학습 (supervised), 휴리스틱 (heuristic), 그리고 LLM 베이스라인을 능가하며, 학습되지 않은 추천 시스템에도 일반화됩니다.
토론:
https://huggingface.co/papers/2605.28
코드:
https://github.com/hongruhou89/ProRL
NEO-ov: 이미지 인코더가 없는 시각-언어 모델 (vision-language models)
이 네이티브 파운데이션 모델 (native foundation model)은 픽셀-단어 대응 관계 (pixel-to-word correspondence)를 엔드 투 엔드 (end-to-end)로 학습하여, 외부 인코더 (encoders)나 어댑터 (adapters) 없이 이미지, 비디오, 공간 지능 (spatial intelligence)을 통합합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기