언어 모델이 실제로 인컨텍스트(In-Context) 검색을 수행할 수 있는가? 백만 토큰 규모의 문서 홍수 속에서
요약
본 연구는 백만 토큰 규모의 대규모 코퍼스에서 언어 모델이 수행하는 인컨텍스트 검색 능력을 체계적으로 분석합니다. BlockSearch 아키텍처를 통해 길이 일반화 문제를 해결하고, 어텐션 희석 현상을 극복하기 위한 새로운 조정 기법을 제안합니다.
핵심 포인트
- 백만 토큰 규모의 대규모 인컨텍스트 검색에 대한 체계적 연구 제시
- BlockSearch를 통해 학습 범위를 10배까지 확장하는 길이 일반화 달성
- 어텐션 희석(Attention Dilution) 현상이 대규모 컨텍스트에서 성능 저하의 원인임을 규명
- 길이 인식 조정 및 희소 어텐션 도입으로 밀집 검색(Dense Retrieval) 수준의 성능 확보
언어 모델 (LMs)은 벡터 기반 검색 (vector-based retrieval)에 대한 흥미로운 대안을 제시합니다. 즉, 인컨텍스트 코퍼스 (in-context corpus)를 조건으로 하여 직접 관련 답변을 생성하는 방식입니다. 그러나 기존 연구들은 주로 독점적인 시스템이나 소규모의 재순위화 (reranking) 작업에 집중해 왔으며, 코퍼스 규모의 인컨텍스트 검색 (in-context retrieval)은 거의 탐구되지 않은 상태로 남아 있습니다. 본 연구에서는 실제 검색기가 요구하는 두 가지 규모, 즉 백만 토큰 규모의 코퍼스와 학습 시 크기를 훨씬 뛰어넘는 길이 일반화 (length-generalization)에 대한 인컨텍스트 검색의 첫 번째 체계적인 연구를 제시합니다. 우리는 먼저 BlockSearch를 소개합니다. 이는 기존 LM 베이스라인보다 개선된 아키텍처 및 학습 수정을 거친 0.6B LM 검색기로, 학습 범위를 최대 10배까지 길이 일반화할 수 있습니다. 그럼에도 불구하고, 검색 성능은 더욱 극단적인 외삽 (extrapolation) 상황에서는 여전히 붕괴됩니다. 우리는 이러한 실패의 원인을 어텐션 희석 (attention dilution) 효과로 파악했습니다. 코퍼스가 커짐에 따라 무관한 문서들이 소프트맥스 (softmax) 분모를 지배하게 되며, 이로 인해 골드 문서 (gold document)의 프리-소프트맥스 (pre-softmax) 점수가 높게 유지되더라도 정규화된 질량 (normalized mass)이 감소하게 됩니다. 이러한 분석에 착안하여, 우리는 어텐션 소프트맥스에 대한 길이 인식 조정 (length-aware adjustments)과 문서 수준의 희소 어텐션 (document-level sparse attention)을 도입합니다. 이러한 수정을 통해, 백만 토큰 규모에서 우리 모델은 널리 연구된 벤치마크 (예: MS MARCO 및 NQ)에서 밀집 검색 (dense retrieval)과 대등한 성능을 보였으며, 7배 더 작은 크기임에도 불구하고 동시대 모델인 MSA를 능가했습니다. 나아가, LIMIT와 같이 완전히 다른 유사성 개념을 요구하는 작업에서는 밀집 검색을 크게 앞질러 3배 더 높은 점수를 달성했습니다. 종합적으로, 우리의 결과는 인컨텍스트 검색이 고전적 검색의 유망한 대안임을 입증하는 동시에, 극단적인 컨텍스트 성장 상황에서의 어텐션 제어 (attention control)가 새로운 과제임을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기