본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 23. 11:05

RoPE가 Retrieval Heads를 방해하거나 저하시키는가? 모델 제품군에 걸친 기계론적 분석

요약

RoPE(Rotary Position Embeddings)가 Retrieval heads의 형성을 방해하는지에 대한 기계론적 분석 연구입니다. 실험 결과, RoPE의 주파수가 Retrieval heads의 성능에 결정적인 영향을 미치며, 특정 차원의 주파수를 조절할 때 회상 성능이 용량 의존적으로 저하됨을 확인했습니다.

핵심 포인트

  • Retrieval heads는 긴 컨텍스트 회상에 인과적으로 필수적인 요소임
  • RoPE의 높은 주파수 설정이 Retrieval heads의 수를 줄이지는 않음
  • RoPE 주파수가 Retrieval heads의 성능을 결정하는 핵심 인과 변수임
  • 특정 차원의 RoPE 주파수를 0으로 만들 경우 회상 성능이 급격히 저하됨

이전 컨텍스트에서 현재 위치로 정보를 복사하는 어텐션 헤드인 Retrieval heads는 긴 컨텍스트 회상 (long-context recall)을 위한 기계론적 기질 (mechanistic substrate)로 제안되어 왔습니다. Rotary position embeddings (RoPE)는 기본 하이퍼파라미터 $\theta$에 따라 감쇠하는 주파수로 쿼리 (queries)와 키 (keys)를 회전시키며, 이러한 회전이 retrieval heads의 형성을 방해하거나 그 기능을 저하시킨다는 것이 자연스러운 가설입니다. 우리는 multi-head attention 및 grouped-query attention을 아우르는 4개의 open-weight 7-8B 모델과 100배 범위의 $\theta$를 대상으로, paired-seed needle-in-a-haystack 테스트, layer-clustered permutation, 그리고 causal head-masking을 사용하여 이 두 가지 가설을 모두 테스트합니다. (i) Retrieval heads는 인과적으로 필수적입니다: OLMo-2에서 탐지된 87개의 헤드를 마스킹하면 회상 성능이 1.00에서 0.00으로 붕괴되는 반면, 일치하지 않는 무작위 헤드를 마스킹하는 것은 효과가 없습니다; 이는 Qwen에서도 재현됩니다. (ii) 더 높은 $\theta$는 retrieval-head의 수를 줄이지 않습니다 ($\theta=500K$인 LLaMA-3.1은 47개의 헤드를 가지며, $\theta=10K$인 LLaMA-2는 42개를 가짐). 이는 방해 가설 (prevention hypothesis)을 반박합니다. (iii) norm-utility 관계는 모델 제품군마다 다르며 서로 반대 방향으로 유의미합니다 (Qwen $d=-0.49$, OLMo $d=+0.50$, 둘 다 유의미함; LLaMA는 유의미하지 않음). OLMo와 LLaMA-3.1은 $\theta=500K$를 공유함에도 불구하고 결과가 다르기 때문에, 이 효과는 $\theta$에 의해 주도되는 것이 아닙니다. (iv) Chiang과 Yogatama (2025)의 연구를 바탕으로 한 통제된 패치 (controlled patch) 실험 결과, retrieval heads의 가장 낮은 주파수 RoPE 차원을 0으로 만들면 회상 성능이 용량 의존적 (dose-dependently)으로 저하됨을 보여줍니다 (128개 차원 중 32개를 0으로 만들었을 때 1.00에서 0.18로 저하, 무작위 차원의 경우 0.98). 이 효과는 헤드 특이적이며 작업 특이적입니다. 인과적 변수는 norm-utility가 아니라 RoPE 주파수입니다. 이 방향성은 4개의 계보와 2개의 규모에 걸쳐 패치된 5개 모델(OLMo-2, Qwen2.5-7B/14B, Gemma-2, Mistral) 모두에서 유지됩니다. 우리는 모델 간의 크기(magnitude)가 동일하다고 주장하지는 않습니다. 코드와 paired-seed harness가 공개되었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0