언어 모델이 실제로 인컨텍스트(In-Context) 검색을 수행할 수 있는가? 백만 토큰 규모의 문서 홍수 속에서

언어 모델 (LMs)은 벡터 기반 검색 (vector-based retrieval)에 대한 흥미로운 대안을 제시합니다. 즉, 인컨텍스트 코퍼스 (in-context corpus)를 조건으로 하여 직접 관련 답변을 생성하는 방식입니다. 그러나 기존 연구들은 주로 독점적인 시스템이나 소규모의 재순위화 (reranking) 작업에 집중해 왔으며, 코퍼스 규모의 인컨텍스트 검색 (in-context retrieval)은 거의 탐구되지 않은 상태로 남아 있습니다. 본 연구에서는 실제 검색기가 요구하는 두 가지 규모, 즉 백만 토큰 규모의 코퍼스와 학습 시 크기를 훨씬 뛰어넘는 길이 일반화 (length-generalization)에 대한 인컨텍스트 검색의 첫 번째 체계적인 연구를 제시합니다. 우리는 먼저 BlockSearch를 소개합니다. 이는 기존 LM 베이스라인보다 개선된 아키텍처 및 학습 수정을 거친 0.6B LM 검색기로, 학습 범위를 최대 10배까지 길이 일반화할 수 있습니다. 그럼에도 불구하고, 검색 성능은 더욱 극단적인 외삽 (extrapolation) 상황에서는 여전히 붕괴됩니다. 우리는 이러한 실패의 원인을 어텐션 희석 (attention dilution) 효과로 파악했습니다. 코퍼스가 커짐에 따라 무관한 문서들이 소프트맥스 (softmax) 분모를 지배하게 되며, 이로 인해 골드 문서 (gold document)의 프리-소프트맥스 (pre-softmax) 점수가 높게 유지되더라도 정규화된 질량 (normalized mass)이 감소하게 됩니다. 이러한 분석에 착안하여, 우리는 어텐션 소프트맥스에 대한 길이 인식 조정 (length-aware adjustments)과 문서 수준의 희소 어텐션 (document-level sparse attention)을 도입합니다. 이러한 수정을 통해, 백만 토큰 규모에서 우리 모델은 널리 연구된 벤치마크 (예: MS MARCO 및 NQ)에서 밀집 검색 (dense retrieval)과 대등한 성능을 보였으며, 7배 더 작은 크기임에도 불구하고 동시대 모델인 MSA를 능가했습니다. 나아가, LIMIT와 같이 완전히 다른 유사성 개념을 요구하는 작업에서는 밀집 검색을 크게 앞질러 3배 더 높은 점수를 달성했습니다. 종합적으로, 우리의 결과는 인컨텍스트 검색이 고전적 검색의 유망한 대안임을 입증하는 동시에, 극단적인 컨텍스트 성장 상황에서의 어텐션 제어 (attention control)가 새로운 과제임을 강조합니다.

Insights

언어 모델이 실제로 인컨텍스트(In-Context) 검색을 수행할 수 있는가? 백만 토큰 규모의 문서 홍수 속에서

요약

핵심 포인트

댓글

USDA 보고서 이후 강세를 보이며 수요일까지 상승세를 이어가는 옥수수

테슬라가 다음 주부터 직원들의 AI 지출을 주 200달러로 자른다. 몇 달 전까지 AI를 더 쓰라고 등을 떠밀던 회사다. 일부 엔지니어의 토큰

어제 테슬라 발표에서 다들 인도량 48만 대만 봤는데, 그 아래 줄에 더 재밌는 숫자가 있었다. 에너지 저장장치 배포 13.5GWh. 라스롭과

Anthropic이 Samsung Foundry와 AI 칩 제조 논의 중이라는 소식, 가장 놀라운 건 패키징까지 Samsung 걸 검토

테슬라가 다음 주부터 직원들의 AI 지출을 주 200달러로 자른다. 몇 달 전까지 AI를 더 쓰라고 등을 떠밀던 회사다. 일부 엔지니어의 토큰

어제 테슬라 발표에서 다들 인도량 48만 대만 봤는데, 그 아래 줄에 더 재밌는 숫자가 있었다. 에너지 저장장치 배포 13.5GWh. 라스롭과

Anthropic이 Samsung Foundry와 AI 칩 제조 논의 중이라는 소식, 가장 놀라운 건 패키징까지 Samsung 걸 검토