ProRL: 선제적 추천을 위한 강화학습 (RL) 문제 해결

ProRL은 선제적 추천 (proactive recommendation)을 위한 강화학습 (RL) 문제를 해결합니다.

표준 정책 경사 (Standard policy gradients) 방식은 사용자 선호도를 유도할 때, 더 긴 경로가 더 높은 보상을 수집하게 되고 경사 (gradients)가 노이즈에 묻혀버리기 때문에 실패합니다.

ProRL은 단계별 보상 중심화 (stepwise reward centering)와 위치별 베이스라인 (position-specific baselines)을 통해 이 두 가지 문제를 바로잡습니다.

ICML 2026 채택

이 모델은 세 가지 실제 데이터셋에서 지도 학습 (supervised), 휴리스틱 (heuristic), 그리고 LLM 베이스라인을 능가하며, 학습되지 않은 추천 시스템에도 일반화됩니다.

토론:
https://huggingface.co/papers/2605.28

코드:
https://github.com/hongruhou89/ProRL

NEO-ov: 이미지 인코더가 없는 시각-언어 모델 (vision-language models)

이 네이티브 파운데이션 모델 (native foundation model)은 픽셀-단어 대응 관계 (pixel-to-word correspondence)를 엔드 투 엔드 (end-to-end)로 학습하여, 외부 인코더 (encoders)나 어댑터 (adapters) 없이 이미지, 비디오, 공간 지능 (spatial intelligence)을 통합합니다.

Insights

ProRL: 선제적 추천을 위한 강화학습 (RL) 문제 해결

요약

핵심 포인트

댓글

인더스트리 4.0의 간과된 계층: 왜 운영 메모리가 모든 스마트 공장에 필요한가

Embodied AI란 무엇인가?

논란이 된 노르웨이-잉글랜드 월드컵 골을 플레이 가능한 3D 시뮬레이션으로 재구축 (Claude Code 사용)

JP모건, 2026년 2분기 기록적인 이익 달성, 시가총액 1조 달러에 근접

Embodied AI란 무엇인가?

논란이 된 노르웨이-잉글랜드 월드컵 골을 플레이 가능한 3D 시뮬레이션으로 재구축 (Claude Code 사용)

JP모건, 2026년 2분기 기록적인 이익 달성, 시가총액 1조 달러에 근접