Logit-Contribution Scoring을 통한 비문자적 검색 헤드(Non-Literal Retrieval Heads) 식별

긴 문맥(long-context) 사용 시, 대규모 언어 모델(LLM)은 관련 문맥 구간의 내용을 그대로 복사하여 붙여넣기보다는 그 의미로부터 답변을 합성하는 경우가 빈번합니다. 어떤 어텐션 헤드(attention heads)가 이러한 합성을 수행하는지 식별하는 것은 긴 문맥 모델의 동작을 해석하는 데 매우 중요합니다. 그러나 기존의 탐지기들은 구조적인 한계로 인해 이러한 헤드들을 놓치고 있습니다. 기존 방식은 어텐션 대상 토큰이 생성된 토큰과 일치하는 헤드에 보상을 주는데, 이는 문자 그대로 복사하는 기준(literal-copy criterion)입니다. 이는 헤드가 읽는 위치는 포착하지만, 비문자적 검색(non-literal retrieval)을 수행하는 핵심 메커니즘인 출력값(output-value, OV) 회로를 통해 무엇을 쓰는지까지는 포착하지 못합니다.

우리는 Logit-Contribution Scoring (LOCOS)을 소개합니다. 이는 각 헤드의 OV-회로 출력을 정답 토큰의 언임베딩(unembedding) 방향으로 투영하여 점수를 매기는, 쓰기 인지적(write-aware) 탐지기입니다. 이는 단일 순전파(forward pass) 과정에서 바늘(needle) 위치와 바늘이 없는(off-needle) 소스 위치를 대조합니다. 세 가지 모델 제품군(Qwen3, Gemma-3, OLMo-3.1)에 걸쳐, NoLiMa 비문자적 검색 벤치마크에서 상위 LOCOS 헤드들을 평균적으로 제거(mean-ablating)했을 때, 기존의 어텐션 기반 탐지 방식보다 더 적은 수의 헤드만으로도 ROUGE-L 점수가 급격히 하락했습니다. Qwen3-8B의 경우, 50개의 헤드를 제거했을 때 ROUGE-L이 0.401에서 0.000으로 떨어졌으나, 가장 강력한 베이스라인은 여전히 0.292를 유지했습니다.

선택된 헤드들은 검색에 특화되어 있습니다. 동일한 제거 실험 조건에서도 파라미터 회상(parametric recall)과 산술 추론(arithmetic reasoning)은 베이스라인 수준을 유지했습니다. Qwen3-8B에서 동일한 제거 실험은 MuSiQue 점수를 0.55에서 0.08로, BABI-Long 점수를 0.62에서 0.20으로 떨어뜨린 반면, 무작위 헤드 제어군(random-heads control)은 베이스라인의 0.05 이내 범위를 유지했습니다.

Insights

Logit-Contribution Scoring을 통한 비문자적 검색 헤드(Non-Literal Retrieval Heads) 식별

요약

핵심 포인트

댓글

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침