GR2 기술 보고서
요약
산업용 추천 시스템의 재랭킹 성능을 극대화하기 위한 GR2(Generative Reasoning Re-Ranker) 프레임워크를 제안합니다. 의미적 ID 미드 트레이닝, 강화학습 기반의 추론 증류, 컨텍스트 압축 기술을 결합하여 대규모 트래픽 환경에서 탁월한 성능 향상을 입증했습니다.
핵심 포인트
- 재랭킹 단계의 LLM 활용을 위한 GR2 프레임워크 제안
- 의미적 ID(Semantic IDs)를 활용한 미드 트레이닝 도입
- 검증 가능한 보상 기반의 강화학습(RL)으로 추론 능력 강화
- 컨텍스트 압축 및 온-폴리시 증류를 통한 자원 효율성 확보
- 기존 베이스라인 대비 R@1 성능 18.7% 향상 달성
산업용 추천 시스템은 검색 (retrieval), 초기 단계 랭킹 (early-stage ranking), 그리고 재랭킹 (re-ranking)으로 이어지는 다단계 퍼널 (multi-stage funnel)을 통해 수십억 명의 사용자에게 서비스를 제공합니다. 이 과정에서 최종 단계인 재랭킹 (re-ranking)은 사용자 참여도와 다운스트림 성능, 특히 캐러셀 (carousel) 및 그리드 (grid) 디스플레이 형식에 불균형적으로 큰 영향을 미칩니다. 추천 분야에서 대규모 언어 모델 (LLMs)에 대한 관심이 높아지고 있음에도 불구하고, 산업적 도입을 저해하는 세 가지 격차가 존재합니다: (1) 대부분의 노력이 검색 (retrieval)과 랭킹 (ranking)에 집중되어 있어, 최종 사용자 경험과 가장 밀접한 단계인 재랭킹 (re-ranking)은 거의 탐구되지 않았습니다; (2) LLMs는 일반적으로 제로샷 (zero-shot) 또는 지도 미세 조정 (supervised fine-tuning, SFT)을 통해 배포되며, 검증 가능한 보상 (verifiable rewards)을 통한 강화학습 (RL)으로 해제되는 추론 능력을 충분히 활용하지 못합니다; (3) 배포된 카탈로그는 기본 LLM 어휘 (vocabulary) 범위를 벗어나는 비의미적 식별자 (non-semantic identifiers)를 사용하여 수십억 개의 아이템을 인덱싱합니다. 본 논문에서는 (i) 99% 이상의 고유성을 가진 토크나이저 (tokenizer)로 생성된 의미적 ID (semantic IDs)에 대한 미드 트레이닝 (mid-training), (ii) 타겟 프롬프팅 (targeted prompting) 및 거부 샘플링 (rejection sampling)을 통해 더 강력한 교사 모델 (teacher model)로부터 증류된 추론 흔적 (reasoning-trace), (iii) 재랭킹 (re-ranking)을 위해 특수 제작된 검증 가능한 보상 (verifiable rewards) 기반의 강화학습 (RL)을 결합한 엔드투엔드 (end-to-end) 프레임워크인 GR2 (Generative Reasoning Re-Ranker)를 제시합니다. GR2를 자원 효율적으로 만들기 위해, 우리는 추가적으로 (iv) 훈련 비용을 분할 상환하는 컨텍스트 압축기 (context compressor), 산업 규모에서 붕괴되는 것을 확인한 SFT의 확장 가능한 대안으로서의 온-폴리시 증류 (On-Policy Distillation, OPD), 그리고 저지연 서빙 (low-latency serving)을 위한 추론 증류 (reasoning distillation)를 도입합니다. GR2는 산업 규모의 트래픽에서 기존 베이스라인 대비 R@1 +18.7%, R@3 +7.1%, N@3 +9.6%의 성능 향상을 달성했습니다. 또한 우리는 재랭킹 (re-ranking)에서 보상 설계 (reward design)가 매우 중요하다는 것을 발견했습니다: LLM은 종종 입력 순서를 유지하거나 위치 편향 (position bias)을 악용하여 보상을 해킹(hack)하곤 하며, 이는 조건부 검증 가능한 보상 (conditional verifiable rewards)이 필수적인 산업적 구성 요소임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기