arXiv논문2026. 06. 05. 13:48

OneReason 기술 보고서

요약

생성형 추천 모델의 추론 능력 한계를 극복하기 위한 OneReason 기술 보고서입니다. 아이템 토큰의 언어적 의미를 파악하는 지각(perception)과 사용자 행동을 재구성하는 인지(cognition) 능력을 결합하여 효과적인 CoT를 구현합니다.

핵심 포인트

기존 생성형 추천 모델의 CoT 구축 한계 지적
지각(Perception)과 인지(Cognition) 중심의 새로운 접근법 제안
3단계 인지 강화 CoT 형식의 SFT 적용
강화 학습(RL)을 통한 사고 능력 향상 레시피 제안

OneRec 제품군에 속하는 생성형 추천 모델(Generative recommendation models)은 숏폼 비디오, 라이브 스트리밍, 광고, 이커머스 등 많은 실제 서비스에 널리 배포되어 왔습니다. 그러나 이러한 생성형 모델들은 스케일링 이점(scaling advantage)으로부터만 혜택을 받을 수 있을 뿐, 아이템 토큰(itemic tokens)만으로 구성된 의미 있는 사고 사슬(Chain-of-Thought, CoT) 시퀀스를 구축할 수 없기 때문에 추론 능력(reasoning ability)을 활성화하기가 어렵습니다. LLM 분야에서 추론 스타일의 "답변 전 생각하기(think before answer)" 패러다임이 거둔 성공에 영감을 받아, 우리는 생성형 추천에서의 추론 능력을 탐구하기 위해 예비 연구(즉, OneRec-Think, OpenOneRec)를 수행했습니다. 그럼에도 불구하고, 우리는 예상치 못한 현상을 발견했습니다. 즉, 사고 모드(thinking mode)가 비사고 모드(non-thinking mode)에 비해 우위를 점하지 못한다는 점입니다. 멀티모달 언어 모델(multi-modal language models)의 CoT 강건성(robustness)에 관한 최근 연구 결과로부터 통찰을 얻어, 우리는 추천에서의 효과적인 추론이 두 가지 요소에 달려 있다고 주장합니다: 아이템 토큰을 그 기저의 언어적 의미(language semantics)에 접지(ground)시키는 능력인 지각(perception), 그리고 사용자의 행동 시퀀스를 일관된 잠재적 관심 지점(latent interest points)으로 재구성하는 능력인 인지(cognition)입니다. 따라서 우리는 다음과 같은 내용을 포함하는 OneReason을 제안합니다: (1) 사전 학습(pre-training) 단계에서의 강력한 아이템 토큰 지각, (2) 지도 미세 조정(SFT) 단계에서 추천 작업을 위한 3단계 인지 강화 CoT 형식, (3) 사고 능력을 향상시키기 위한 강화 학습(RL)에서의 전문화 후 통합(specialize-then-unify) 학습 레시피.

AI 자동 생성 콘텐츠

원문 바로가기

OneReason 기술 보고서

요약

핵심 포인트

댓글