arXiv논문2026. 05. 25. 16:47

HARNESS-LM: Sponsored Search Retrieval에서 SLM을 활용하기 위한 3단계 학습 레시피

요약

Sponsored Search Retrieval 분야에서 소형 언어 모델(SLM)의 성능을 극대화하는 HARNESS-LM 학습 방법론을 제안합니다. 지식 증류, 도메인 특화 적응, 정렬의 3단계 과정을 통해 SLM이 LLM에 근접한 검색 성능을 내도록 설계되었습니다.

핵심 포인트

SLM 성능 극대화를 위한 3단계 학습 레시피 제안
지식 증류를 통한 LLM의 지식 전이
Sponsored Search 도메인 특화 데이터 적응
검색 목적 함수 최적화를 위한 정렬 단계 포함
모델 크기보다 학습 방법론의 중요성 입증

본 논문은 Sponsored Search Retrieval (후원 검색 검색) 분야에서 소형 언어 모델 (Small Language Models, SLMs)의 성능을 극대화하기 위한 새로운 학습 방법론인 HARNESS-LM을 제안합니다. 최근 대규모 언어 모델 (Large Language Models, LLMs)의 발전에도 불구하고, 검색 시스템의 실시간 요구 사항과 효율성을 고려할 때 SLM의 역할은 매우 중요합니다. 우리는 SLM이 검색 단계에서 LLM에 근접한 성능을 낼 수 있도록 설계된 3단계 학습 레시피를 소개합니다.

첫 번째 단계는 지식 증류 (Knowledge Distillation) 단계로, 강력한 LLM으로부터 풍부한 지식을 추출하여 SLM의 기초를 다집니다. 두 번째 단계는 도메인 특화 적응 (Domain-specific Adaptation) 단계로, Sponsored Search 환경의 특수한 데이터 분포와 쿼리-광고 관계를 학습합니다. 마지막 세 번째 단계는 정렬 (Alignment) 단계로, 검색 목적 함수 (Retrieval Objective)에 최적화되도록 모델을 미세 조정합니다.

실험 결과, HARNESS-LM을 통해 학습된 모델은 기존의 일반적인 SLM 기반 모델보다 검색 정확도(Retrieval Accuracy)와 효율성 측면에서 유의미한 향상을 보였습니다. 이는 적절한 학습 레시피가 모델의 크기보다 더 중요한 성능 결정 요인이 될 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

HARNESS-LM: Sponsored Search Retrieval에서 SLM을 활용하기 위한 3단계 학습 레시피

요약

핵심 포인트

댓글