Metric-Ordered Sequence Training 및 Hybrid-Policy Preference Optimization을 통한
요약
패턴 보존 속성 검색을 위해 제안된 MO-DiT+HPPO 프레임워크를 소개합니다. Metric-Ordered 학습과 HPPO를 통해 검색 결과의 패턴 순도와 속성 지표를 동시에 최적화하는 연속적 생성형 검색 방식을 제안합니다.
핵심 포인트
- 패턴 보존과 속성 검색 간의 충돌 문제를 해결하는 새로운 프레임워크 제안
- Metric-Ordered 학습을 통한 도메인 전반의 지표 개선 방향 학습
- HPPO를 적용하여 생성된 쿼리 분포를 실제 온라인 목표와 정렬
- 다양한 도메인 실험을 통해 기존 생성형 검색기 대비 성능 향상 입증
임베딩 기반 검색 (Embedding-based retrieval)은 공유된 벡터 공간에서 쿼리와의 유사성에 따라 아이템의 순위를 매기며, 일반적으로 가장 높은 점수를 가진 아이템을 반환하는 것을 목표로 합니다. 많은 실제 운영 환경에서는 이것이 원하는 결과가 아닙니다. 미세한 패턴을 나타내는 시드 세트 (seed set)가 주어졌을 때, 대상 속성 (target attribute)을 충족하면서도 해당 패턴 내에 머무는 더 많은 아이템이 필요합니다. 우리는 이를 패턴 보존 속성 검색 (pattern-preserving attribute retrieval)으로 공식화합니다. 이 두 목표는 서로 충돌합니다. 시드들을 평균 내는 것은 패턴을 보존하지만 낮은 속성 영역에 머물게 되고, 전역 속성 검색 (global attribute retrieval)은 관련 없는 패턴으로 표류하게 됩니다. 우리는 모델이 아이템 임베딩 시퀀스를 읽고 최근접 이웃 검색 (nearest-neighbor search)을 위한 쿼리 임베딩을 생성하는 연속적 생성형 검색 (continuous generative retrieval) 방식으로 이 과제에 접근합니다. 우리는 원시 시퀀스 사전 학습 (raw-sequence pretraining), 다중 도메인 Metric-Ordered 연속 사전 학습 (multi-domain metric-ordered continuation pretraining), Tail-centroid 미세 조정 (tail-centroid fine-tuning), 그리고 HPPO를 포함하는 단계별 프레임워크인 MO-DiT+HPPO를 제안합니다. Metric-ordered 학습은 희소한 온라인 검색 레이블을 예측된 속성 밀도가 낮은 곳에서 높은 곳으로 정렬된 패턴 내 궤적 (in-pattern trajectories)으로 변환하여, 하나의 모델이 도메인 전반에 걸쳐 Metric-improvement 방향을 학습하도록 합니다. HPPO는 하이브리드 후보 풀 (hybrid candidate pool)에 온라인 교집합 지표 (online intersection metric)를 레이블링하고 참조 앵커 기반 선호도 최적화 (reference-anchored preference optimization)를 적용함으로써, 생성된 쿼리 분포를 실제 온라인 목표와 정렬합니다. Pareto pair 필터는 동일 패턴 순도 (same-pattern purity)를 낮추지 않는 승자 쌍 (winner pairs)만을 유지하여, 패턴을 희생하지 않으면서 속성 지표를 높입니다. 아이템 및 패턴 홀드아웃 (item- and pattern-holdout) 프로토콜 하의 4개 속성 도메인에서, Metric-ordered DiT는 사전 학습된 생성형 검색기 (generative retriever)보다 교집합 지표를 개선하며, HPPO는 이를 더욱 향상시킵니다. 이는 8개 도메인 분할 셀 중 7개에서 상당한 이득을 보였으며, 가장 어려운 분할에서는 미미한 무승부를 기록했습니다. Metric-predictor 검증, 순서 어블레이션 (order ablations), CPT/SFT 비교, 그리고 후보-정책 어블레이션 (candidate-policy ablation)을 통해 이러한 이득이 어디에서 오는지 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기