AutoRelAnnotator: 스폰서 검색의 비용 효율적인 관련성 평가를 위한 보정된 모델 캐스케이드 (Calibrated Model
요약
대규모 검색 시스템의 관련성 주석 비용을 절감하기 위한 '보정된 모델 캐스케이드' 방식을 제안합니다. 미세 조정된 분류기와 캐스케이드 구조, 등조 보정을 결합하여 정확도를 유지하면서도 계산 비용을 절반으로 줄이는 효율적인 파이프라인을 구축했습니다.
핵심 포인트
- 미세 조정을 통한 정확도 향상과 캐스케이드를 통한 비용 절감의 최적화
- 클래스별 등조 보정(per-class isotonic calibration) 도입으로 신뢰도 개선
- 계산 비용을 50% 절감하면서도 높은 정확도의 주석 생성 가능
- 1억 5천만 개 이상의 주석을 처리하며 실제 운영 환경에서 검증 완료
인간의 라벨링(labeling)에 따른 비용과 지연 없이 어떻게 대규모로 고품질의 관련성 주석(relevance annotations)을 생성할 수 있을까요? 관련성 주석은 학습 데이터 준비, NDCG 평가, 그리고 근본 원인 분석(root cause analysis)에 필요한 검색 순위 시스템(search ranking systems)의 중추입니다. 그러나 인간의 주석 작업은 느리며, 기성 LLM(Large Language Models)은 도메인 특화 작업에서 정확도 문제가 발생합니다. 우리는 점진적으로 더 큰 미세 조정된 분류기(fine-tuned classifiers)를 통해 쿼리를 라우팅함으로써 비용 효율적인 오프라인 관련성 주석을 수행하는 체계적인 접근 방식인 보정된 모델 캐스케이드(calibrated model cascade)를 제안합니다. 우리의 핵심 통찰은 정확도와 비용이 직교하는 최적화(orthogonal optimizations) 대상이라는 점입니다. 즉, 도메인 특화 미세 조정(fine-tuning)은 정확도를 높이고, 캐스케이드(cascading)는 비용을 낮추며, 클래스별 등조 보정(per-class isotonic calibration)은 그 위에 작지만 신뢰할 수 있는 이득을 더합니다. 우리의 기여는 세 가지입니다: (a) 우리는 이득을 분해하여 미세 조정이 정확도 20포인트를 기여하는 반면, 캐스케이드는 정확도에는 거의 중립적이지만 계산 비용을 절반으로 줄인다는 것을 보여줍니다. (b) 우리는 캐스케이드의 한 구성 요소로서 클래스별 등조 보정(per-class isotonic calibration)을 도입하여, 가장 강력한 보정 베이스라인 대비 작지만 통계적으로 유의미한 이득(+0.6 포인트)을 제공함을 입증합니다. (c) 우리는 6개의 오프라인 유스케이스(use cases)에 걸쳐 1억 5천만 개 이상의 주석을 처리하며 실제 운영 환경에서 시스템을 검증하였고, 더 빠른 실험 사이클을 가능하게 했습니다. 우리의 연구는 검색 및 광고 시스템에서 확장 가능하고 고품질인 오프라인 주석 파이프라인을 구축하기 위한 기초 토대입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기