LIG: Transformer 내 레이어 간 흐름 분석을 위한 레이어별 통합 기울기 (Layer-wise Integrated Gradients)
요약
Transformer 내부의 정보 흐름을 분석하기 위해 레이어별 통합 기울기(LIG) 기법을 제안합니다. Set-to-set Integrated Gradients를 활용하여 Multi-Head Attention과 MLP 모듈 간의 토큰 기여도를 정밀하게 추적합니다.
핵심 포인트
- Transformer 레이어를 동적 그래프로 간주하여 분석
- Set-to-set IG를 통한 토큰 간 기여도 평가 방식 도입
- 재학습 없이 사용 가능한 진단용 XAI 도구 제시
- ATT 및 MLP의 개별 기여도 추적 가능
Transformer는 강력한 성능을 달성하지만, 그 내부 연산은 여전히 불투명한 상태로 남아 있습니다. 우리는 각 Transformer 레이어를 토큰 표현(token representations)과 헤드별 어텐션 출력(per-head attention outputs)을 노드로 하고, Multi-Head Attention (ATT) 및 MLP를 모듈 경계로 하는 동적 그래프로 간주합니다. 이 그래프에서 우리는 비선형 모듈 경계에 set-to-set Integrated Gradients (IG)를 적용하는 LIG (Layer-wise Integrated Gradients)를 사용합니다. Set-to-set IG는 입력 토큰 표현 집합에서 출력 표현 집합으로의 맵(map)에 IG를 적용하여 토큰 간 기여도(token-to-token contributions)를 평가하며, 이는 기존의 IG 적용 방식과는 다릅니다. 이는 IG를 일반적인 스칼라 목적 함수(scalar-objective) 설정에서 L2 스칼라화(L2 scalarization)를 통해 set-to-set 맵으로 확장하며, Layer-wise Relevance Propagation (LRP)의 정신을 따라 레이어 내부의 기여도를 결합합니다. 이때 IG 완결성(completeness)은 각 경계에서 LRP 스타일의 보존(conservation) 역할을 수행합니다. 우리는 LIG를 사용하여 (i) L2 기준 하에서 모듈별 결합(module-wise composition)과 레이어 전체 귀속(layer-whole attribution) 사이의 일치 여부, 그리고 (ii) 분리된 ATT 및 MLP 기여도를 추적함으로써 레이어 내부의 정보 흐름을 분석합니다. BERT-base 및 PTB에서 레이어 내부 일관성을 가장 잘 보존하는 설정은 대상 토큰의 임베딩을 ATT 베이스라인(baseline)으로 사용하고, MLP 베이스라인으로는 a=0에서의 ATT 출력 또는 Zero를 사용하는 것이었습니다. 따라서 우리는 모델별 재학습이나 연산별 해석기(interpreter) 설계 없이도 모듈 경계 수준의 정밀도를 가진 진단용 XAI 도구로서 LIG를 제시합니다. 코드는 https://github.com/eightsuzuki/layer-wise-integrated-gradients 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기