DREAM: 자기회귀 모델링(Autoregressive Modeling)을 통한 밀집 검색 임베딩(Dense Retrieval
요약
DREAM은 LLM의 자기회귀적 다음 토큰 예측 방식을 활용하여 밀집 검색 임베딩을 학습하는 새로운 방법론을 제안합니다. 고정된 LLM의 어텐션 헤드에 쿼리-문서 유사도 점수를 주입하여 검색기 훈련을 위한 그래디언트를 생성합니다. BEIR 및 RTEB 벤치마크 테스트 결과, 기존 베이스라인을 뛰어넘는 성능을 입증했습니다.
핵심 포인트
- LLM의 다음 토큰 예측 목적 함수를 밀집 검색 지도 학습에 활용
- 고정된 LLM의 어텐션 헤드에 유사도 점수를 주입하는 DREAM 방식 제안
- 어텐션 메커니즘을 통해 검색기 훈련을 위한 그래디언트 전달 가능
- BEIR 및 RTEB 벤치마크에서 기존 모델 대비 우수한 성능 확인
밀집 검색 임베딩 (Dense retrieval embedding) 모델은 현대의 검색 기반 AI 시스템의 핵심 구성 요소입니다. 대부분의 밀집 검색기 (Dense retrievers)는 대조 학습 (Contrastive objectives)을 통해 훈련되는데, 이는 비용이 많이 들고 얻기 어려운 레이블이 지정된 양성 및 음성 문서 쌍 (Positive and negative document pairs)을 필요로 합니다. 본 연구에서는 대규모 언어 모델 (LLM)의 자기회귀적 다음 토큰 예측 (Autoregressive next-token prediction) 목적 함수가 밀집 검색을 위한 지도 학습 (Supervision)을 제공할 수 있는지 조사합니다. 직관은 간단합니다. 만약 문서가 쿼리 (Query)와 관련된 정보를 포함하고 있다면, 해당 문서에 조건화 (Conditioning)하는 것이 LLM이 타겟 출력을 예측하는 것을 더 쉽게 만들어 줄 것이라는 점입니다. 주요 과제는 다음 토큰 예측 손실 (Next-token prediction loss)은 LLM 내부에서 계산되는 반면, 검색기 (Retriever)는 별개의 임베딩 모델이라는 점입니다. 이 과제를 해결하기 위해, 우리는 고정된 (Frozen) LLM의 선택된 어텐션 헤드 (Attention heads)에 검색기가 생성한 쿼리-문서 유사도 점수를 주입하는 DREAM (Dense Retrieval Embeddings via Autoregressive Modeling)을 제안합니다. 훈련 과정 동안, 이러한 점수들은 LLM이 타겟 출력을 예측하는 동안 각 후보 문서가 얼마나 많은 어텐션 (Attention)을 받을지를 결정합니다. 결과적으로 발생하는 예측 손실은 어텐션 메커니즘을 통해 검색기 훈련을 위한 그래디언트 (Gradients)를 제공합니다. 우리는 0.5B에서 3B 파라미터 범위의 임베딩 백본 (Embedding backbones)을 사용하여 검색 벤치마크인 BEIR 및 RTEB에서 DREAM을 평가합니다. DREAM은 다양한 모델 규모에 걸쳐 기존 베이스라인 (Baselines)들을 지속적으로 능가합니다. 이러한 결과는 DREAM이 자기회귀 모델링 (Autoregressive modeling)을 통해 밀집 검색기를 훈련하는 유망한 접근 방식을 제공함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기