Logit-Contribution Scoring을 통한 비문자적 검색 헤드(Non-Literal Retrieval Heads) 식별
요약
LLM이 긴 문맥에서 정보를 단순히 복사하지 않고 의미를 합성하는 '비문자적 검색' 메커니즘을 분석하는 새로운 방법론인 LOCOS를 제안합니다. LOCOS는 어텐션 헤드의 출력값(OV) 회로를 분석하여 검색에 특화된 헤드를 기존 방식보다 정밀하게 식별해냅니다.
핵심 포인트
- 기존의 문자 그대로 복사하는 기준(literal-copy criterion)의 한계 지적
- Logit-Contribution Scoring(LOCOS)을 통한 쓰기 인지적(write-aware) 탐지 방식 도입
- Qwen3, Gemma-3, OLMo-3.1 모델에서 검색 특화 헤드 식별 성능 검증
- LOCOS 헤드 제거 시 검색 성능(ROUGE-L)은 급락하나 추론 능력은 유지됨
긴 문맥(long-context) 사용 시, 대규모 언어 모델(LLM)은 관련 문맥 구간의 내용을 그대로 복사하여 붙여넣기보다는 그 의미로부터 답변을 합성하는 경우가 빈번합니다. 어떤 어텐션 헤드(attention heads)가 이러한 합성을 수행하는지 식별하는 것은 긴 문맥 모델의 동작을 해석하는 데 매우 중요합니다. 그러나 기존의 탐지기들은 구조적인 한계로 인해 이러한 헤드들을 놓치고 있습니다. 기존 방식은 어텐션 대상 토큰이 생성된 토큰과 일치하는 헤드에 보상을 주는데, 이는 문자 그대로 복사하는 기준(literal-copy criterion)입니다. 이는 헤드가 읽는 위치는 포착하지만, 비문자적 검색(non-literal retrieval)을 수행하는 핵심 메커니즘인 출력값(output-value, OV) 회로를 통해 무엇을 쓰는지까지는 포착하지 못합니다.
우리는 Logit-Contribution Scoring (LOCOS)을 소개합니다. 이는 각 헤드의 OV-회로 출력을 정답 토큰의 언임베딩(unembedding) 방향으로 투영하여 점수를 매기는, 쓰기 인지적(write-aware) 탐지기입니다. 이는 단일 순전파(forward pass) 과정에서 바늘(needle) 위치와 바늘이 없는(off-needle) 소스 위치를 대조합니다. 세 가지 모델 제품군(Qwen3, Gemma-3, OLMo-3.1)에 걸쳐, NoLiMa 비문자적 검색 벤치마크에서 상위 LOCOS 헤드들을 평균적으로 제거(mean-ablating)했을 때, 기존의 어텐션 기반 탐지 방식보다 더 적은 수의 헤드만으로도 ROUGE-L 점수가 급격히 하락했습니다. Qwen3-8B의 경우, 50개의 헤드를 제거했을 때 ROUGE-L이 0.401에서 0.000으로 떨어졌으나, 가장 강력한 베이스라인은 여전히 0.292를 유지했습니다.
선택된 헤드들은 검색에 특화되어 있습니다. 동일한 제거 실험 조건에서도 파라미터 회상(parametric recall)과 산술 추론(arithmetic reasoning)은 베이스라인 수준을 유지했습니다. Qwen3-8B에서 동일한 제거 실험은 MuSiQue 점수를 0.55에서 0.08로, BABI-Long 점수를 0.62에서 0.20으로 떨어뜨린 반면, 무작위 헤드 제어군(random-heads control)은 베이스라인의 0.05 이내 범위를 유지했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기