GR2 기술 보고서

산업용 추천 시스템은 검색 (retrieval), 초기 단계 랭킹 (early-stage ranking), 그리고 재랭킹 (re-ranking)으로 이어지는 다단계 퍼널 (multi-stage funnel)을 통해 수십억 명의 사용자에게 서비스를 제공합니다. 이 과정에서 최종 단계인 재랭킹 (re-ranking)은 사용자 참여도와 다운스트림 성능, 특히 캐러셀 (carousel) 및 그리드 (grid) 디스플레이 형식에 불균형적으로 큰 영향을 미칩니다. 추천 분야에서 대규모 언어 모델 (LLMs)에 대한 관심이 높아지고 있음에도 불구하고, 산업적 도입을 저해하는 세 가지 격차가 존재합니다: (1) 대부분의 노력이 검색 (retrieval)과 랭킹 (ranking)에 집중되어 있어, 최종 사용자 경험과 가장 밀접한 단계인 재랭킹 (re-ranking)은 거의 탐구되지 않았습니다; (2) LLMs는 일반적으로 제로샷 (zero-shot) 또는 지도 미세 조정 (supervised fine-tuning, SFT)을 통해 배포되며, 검증 가능한 보상 (verifiable rewards)을 통한 강화학습 (RL)으로 해제되는 추론 능력을 충분히 활용하지 못합니다; (3) 배포된 카탈로그는 기본 LLM 어휘 (vocabulary) 범위를 벗어나는 비의미적 식별자 (non-semantic identifiers)를 사용하여 수십억 개의 아이템을 인덱싱합니다. 본 논문에서는 (i) 99% 이상의 고유성을 가진 토크나이저 (tokenizer)로 생성된 의미적 ID (semantic IDs)에 대한 미드 트레이닝 (mid-training), (ii) 타겟 프롬프팅 (targeted prompting) 및 거부 샘플링 (rejection sampling)을 통해 더 강력한 교사 모델 (teacher model)로부터 증류된 추론 흔적 (reasoning-trace), (iii) 재랭킹 (re-ranking)을 위해 특수 제작된 검증 가능한 보상 (verifiable rewards) 기반의 강화학습 (RL)을 결합한 엔드투엔드 (end-to-end) 프레임워크인 GR2 (Generative Reasoning Re-Ranker)를 제시합니다. GR2를 자원 효율적으로 만들기 위해, 우리는 추가적으로 (iv) 훈련 비용을 분할 상환하는 컨텍스트 압축기 (context compressor), 산업 규모에서 붕괴되는 것을 확인한 SFT의 확장 가능한 대안으로서의 온-폴리시 증류 (On-Policy Distillation, OPD), 그리고 저지연 서빙 (low-latency serving)을 위한 추론 증류 (reasoning distillation)를 도입합니다. GR2는 산업 규모의 트래픽에서 기존 베이스라인 대비 R@1 +18.7%, R@3 +7.1%, N@3 +9.6%의 성능 향상을 달성했습니다. 또한 우리는 재랭킹 (re-ranking)에서 보상 설계 (reward design)가 매우 중요하다는 것을 발견했습니다: LLM은 종종 입력 순서를 유지하거나 위치 편향 (position bias)을 악용하여 보상을 해킹(hack)하곤 하며, 이는 조건부 검증 가능한 보상 (conditional verifiable rewards)이 필수적인 산업적 구성 요소임을 시사합니다.

Insights

GR2 기술 보고서

요약

핵심 포인트

댓글

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법

LLM 응답의 스트리밍(Streaming) vs 배치(Batching): 비용 및 지연 시간(Latency) 분석

Claude Sonnet 5 & DiffusionGemma: 이번 주 AI의 판도를 바꾸는 두 모델

벤치마크는 당신에게 거짓말을 하고 있습니다. LLM을 실제로 평가하는 방법은 다음과 같습니다.

LLM 응답의 스트리밍(Streaming) vs 배치(Batching): 비용 및 지연 시간(Latency) 분석

Claude Sonnet 5 & DiffusionGemma: 이번 주 AI의 판도를 바꾸는 두 모델

벤치마크는 당신에게 거짓말을 하고 있습니다. LLM을 실제로 평가하는 방법은 다음과 같습니다.