arXiv논문2026. 06. 15. 11:21

CoRe: 웹 규모 비디오 검색에서 다단계 문맥 인식 관련성을 위한 지속적 보상 미세 조정(Continuously

요약

웹 규모 비디오 검색을 위한 CoRe 시스템을 소개합니다. 멀티모달 관련성 모델을 보상 소스로 활용하여 프로덕션 환경의 데이터 드리프트에 대응하며, 효율적인 지속적 보상 미세 조정을 통해 검색 성능을 최적화합니다.

핵심 포인트

멀티모달 관련성 모델 기반의 지속적 보상 미세 조정 방식 제안
시뮬레이션과 프로덕션 간의 격차를 해소하는 곱셈 비율 보상 구조
대규모 인스턴스 처리를 위한 세미 온라인 혼합 선호도 최적화(MPO) 적용
자동 승인 게이트를 통한 보상 해킹(reward-hacking) 감지 및 복구
온라인 A/B 테스트를 통해 관련성 및 참여 지표 개선 입증

프로덕션 환경의 LLM 기반 쿼리 재작성기(query rewriters)는 긴장 관계에 직면해 있습니다. 즉, 학습 보상(training reward)은 재작성된 결과가 프로덕션 랭커(production ranker)에 의해 어떻게 소비되는지를 반영해야 하지만, 동시에 학습 절차는 데이터 드리프트(data drifts)에 따라 지속적인 재배포를 지원할 수 있을 만큼 충분히 저렴해야 합니다. 우리는 주요 숏폼 비디오 검색 엔진에서 5개월 이상 매주 재배포되고 있는 시스템인 CoRe (Context Relevance)를 선보입니다. 우리의 보상은 배포된 멀티모달 관련성 모델(multimodal relevance model)을 소스로 사용하며, 프로덕션 퓨전 대수(production fusion algebra)를 반영하는 곱셈 비율(multiplicative ratio) 형태를 사용하여 오프라인 보상 프록시(offline reward proxies)가 남기는 시뮬레이션-프로덕션 간의 격차를 해소합니다. 세미 온라인 혼합 선호도 최적화(semi-online Mixed Preference Optimization) 루프는 이 보상을 주당 수백만 개의 인스턴스 규모에서도 감당할 수 있게 만듭니다. DPO 스타일의 쌍체 목적 함수(pairwise objective)는 그래디언트 패스(gradient pass)를 샘플링된 궤적(trajectories)의 작은 top-k/bottom-k 서브셋으로 제한하며, 단계적 구조(phase structure)는 트레이너/추론 서버(trainer/inference-server) 간의 파라미터 동기화를 스텝 단위에서 단계 단위로 줄여줍니다. 보상 유사 지표 및 안정성 지표에 대한 자동 승인 게이트(automated promotion gate)는 프로덕션에서 발생한 실제 보상 해킹(reward-hacking) 사건을 감지하고 복구했습니다. 재작성기 출력은 기존 신호를 대체하지 않고 리콜(recall), rawrank, 그리고 finerank 단계에서 병렬 관련성 신호로 소비되어, 재작성기 실패의 영향 범위(blast radius)를 제한합니다. finerank에 먼저 재작성기를 배포한 후, 리콜과 rawrank까지 소비를 확장한 두 차례의 연속적인 프로덕션 출시를 통한 온라인 A/B 테스트 결과, 재작성기의 영향을 받는 쿼리에서 변경 쿼리율(change-query rate)이 통계적으로 유의미하게 감소했으며, 모든 주요 관련성 및 참여 지표가 예상된 방향으로 움직였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

CoRe: 웹 규모 비디오 검색에서 다단계 문맥 인식 관련성을 위한 지속적 보상 미세 조정(Continuously

요약

핵심 포인트

댓글