본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 18. 20:02

레이어 등가성은 레이어만의 속성이 아니다: 중복성 테스트 방식에 따른 결과의 변화

요약

Transformer 레이어 압축 시 사용되는 교체(Replacement) 테스트와 교환(Interchange) 테스트의 개념적 차이와 그에 따른 결과의 불일치를 분석합니다. 연구 결과, 두 프로토콜은 모델의 규모와 학습 단계에 따라 레이어 제거의 안전성 범위를 크게 변화시키며, 따라서 레이어 병합이나 제거 전 두 가지 스왑-KL 점수를 모두 측정할 것을 권장합니다.

핵심 포인트

  • 교체 테스트는 레이어의 대체 가능성을, 교환 테스트는 레이어 간 교환 법칙 성립 여부를 측정함
  • 두 테스트 방식은 동일한 스왑-KL 프로브를 사용하더라도 결과가 일치하지 않을 수 있음
  • Pythia와 Qwen3-8B 모델에서 학습 단계가 진행됨에 따라 두 프로토콜 간의 간극이 커지는 현상이 관찰됨
  • Llama-3.1-8B의 사례처럼 메트릭의 차이가 반드시 실제 가지치기 비용과 일대일로 매핑되지 않을 수 있음
  • 효율적인 레이어 압축을 위해 레이블이 없는 순전파 과정만으로 두 가지 스왑-KL 점수를 모두 진단해야 함

연구자들이 압축 (compression)을 위해 두 Transformer 레이어가 "등가 (equivalent)"한지 질문할 때, 종종 서로 다른 테스트를 혼동하곤 합니다. 교체 (Replacement) 테스트는 한 레이어의 맵 (map)이 다른 레이어의 자리를 대신할 수 있는지를 묻는 것이며, 교환 (interchange) 테스트는 두 레이어의 위치를 바꿨을 때 두 레이어가 대략적으로 교환 법칙 (commute)이 성립하는지를 묻는 것입니다. 두 방식 모두 출력 기반의 스왑-KL 프로브 (swap-KL probes)이지만, 반드시 일치해야 하는 것은 아닙니다. 사전 학습된 Transformer (pretrained transformers)에서 이러한 프로토콜의 차이는 동일한 평가자 하에서도 가지치기 (pruning)를 하기에 안전해 보이는 레이어의 범위를 몇 배나 변화시킬 수 있으며, 특히 교체 거리 (replacement distances)가 높을 때 더욱 그러합니다.

우리는 체크포인트 (checkpoints)와 아키텍처 (architectures) 전반에 걸쳐 두 프로토콜을 측정했습니다. Pythia 학습 경로 (410M 및 1.4B)에서 교체-교환 간극 (replacement-interchange gap)은 초기화 단계부터 수렴 (convergence) 단계까지 커집니다. 8B 규모의 동일한 WikiText-2 계약 조건 하에서, Qwen3-8B는 발산 영역 (divergent regime)에 진입합니다. 즉, 동일한 레이어 예산 내에서 교환 가이드 제거 (interchange-guided removal)가 교체 가이드 제거 (replacement-guided removal)보다 몇 배 더 안전한 반면, Llama-3.1-8B는 교환 KL (interchange KL)이 더 낮음에도 불구하고 가지치기 비용 측면에서 두 프로토콜이 동일하게 나타납니다. 이는 메트릭 (metric) 간의 차이가 반드시 제거 결과와 일대일로 매핑될 필요는 없음을 보여줍니다. 레이어 제거 또는 병합 (merging)을 수행하기 전에, 대상 체크포인트에서 두 가지 스왑-KL (swap-KLs) 점수를 모두 측정하십시오. 이 진단에는 레이블이 없는 순전파 (unlabeled forward passes) 과정만 필요합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0