레이어 등가성은 레이어만의 속성이 아니다: 중복성 테스트 방식에 따른 결과의 변화

연구자들이 압축 (compression)을 위해 두 Transformer 레이어가 "등가 (equivalent)"한지 질문할 때, 종종 서로 다른 테스트를 혼동하곤 합니다. 교체 (Replacement) 테스트는 한 레이어의 맵 (map)이 다른 레이어의 자리를 대신할 수 있는지를 묻는 것이며, 교환 (interchange) 테스트는 두 레이어의 위치를 바꿨을 때 두 레이어가 대략적으로 교환 법칙 (commute)이 성립하는지를 묻는 것입니다. 두 방식 모두 출력 기반의 스왑-KL 프로브 (swap-KL probes)이지만, 반드시 일치해야 하는 것은 아닙니다. 사전 학습된 Transformer (pretrained transformers)에서 이러한 프로토콜의 차이는 동일한 평가자 하에서도 가지치기 (pruning)를 하기에 안전해 보이는 레이어의 범위를 몇 배나 변화시킬 수 있으며, 특히 교체 거리 (replacement distances)가 높을 때 더욱 그러합니다.

우리는 체크포인트 (checkpoints)와 아키텍처 (architectures) 전반에 걸쳐 두 프로토콜을 측정했습니다. Pythia 학습 경로 (410M 및 1.4B)에서 교체-교환 간극 (replacement-interchange gap)은 초기화 단계부터 수렴 (convergence) 단계까지 커집니다. 8B 규모의 동일한 WikiText-2 계약 조건 하에서, Qwen3-8B는 발산 영역 (divergent regime)에 진입합니다. 즉, 동일한 레이어 예산 내에서 교환 가이드 제거 (interchange-guided removal)가 교체 가이드 제거 (replacement-guided removal)보다 몇 배 더 안전한 반면, Llama-3.1-8B는 교환 KL (interchange KL)이 더 낮음에도 불구하고 가지치기 비용 측면에서 두 프로토콜이 동일하게 나타납니다. 이는 메트릭 (metric) 간의 차이가 반드시 제거 결과와 일대일로 매핑될 필요는 없음을 보여줍니다. 레이어 제거 또는 병합 (merging)을 수행하기 전에, 대상 체크포인트에서 두 가지 스왑-KL (swap-KLs) 점수를 모두 측정하십시오. 이 진단에는 레이블이 없는 순전파 (unlabeled forward passes) 과정만 필요합니다.

Insights

레이어 등가성은 레이어만의 속성이 아니다: 중복성 테스트 방식에 따른 결과의 변화

요약

핵심 포인트

댓글

OpenAI 모델의 샌드박스 탈출과 Hugging Face 침입. 경위·실질적 피해·방어 정리

우리가 갖지 못했던 CC-BY 4.0

옵션 시장이 시사하는 Marvell Technology 주가의 다음 큰 변동성

Adtran, 고객 프로젝트 지연으로 인한 2분기 매출 전망치 하향 조정 후 주가 급락 (NASDAQ:ADTN)

우리가 갖지 못했던 CC-BY 4.0

옵션 시장이 시사하는 Marvell Technology 주가의 다음 큰 변동성

Adtran, 고객 프로젝트 지연으로 인한 2분기 매출 전망치 하향 조정 후 주가 급락 (NASDAQ:ADTN)