arXiv논문2026. 06. 23. 11:09

LIG: Transformer 내 레이어 간 흐름 분석을 위한 레이어별 통합 기울기 (Layer-wise Integrated Gradients)

요약

Transformer 내부의 정보 흐름을 분석하기 위해 레이어별 통합 기울기(LIG) 기법을 제안합니다. Set-to-set Integrated Gradients를 활용하여 Multi-Head Attention과 MLP 모듈 간의 토큰 기여도를 정밀하게 추적합니다.

핵심 포인트

Transformer 레이어를 동적 그래프로 간주하여 분석
Set-to-set IG를 통한 토큰 간 기여도 평가 방식 도입
재학습 없이 사용 가능한 진단용 XAI 도구 제시
ATT 및 MLP의 개별 기여도 추적 가능

Transformer는 강력한 성능을 달성하지만, 그 내부 연산은 여전히 불투명한 상태로 남아 있습니다. 우리는 각 Transformer 레이어를 토큰 표현(token representations)과 헤드별 어텐션 출력(per-head attention outputs)을 노드로 하고, Multi-Head Attention (ATT) 및 MLP를 모듈 경계로 하는 동적 그래프로 간주합니다. 이 그래프에서 우리는 비선형 모듈 경계에 set-to-set Integrated Gradients (IG)를 적용하는 LIG (Layer-wise Integrated Gradients)를 사용합니다. Set-to-set IG는 입력 토큰 표현 집합에서 출력 표현 집합으로의 맵(map)에 IG를 적용하여 토큰 간 기여도(token-to-token contributions)를 평가하며, 이는 기존의 IG 적용 방식과는 다릅니다. 이는 IG를 일반적인 스칼라 목적 함수(scalar-objective) 설정에서 L2 스칼라화(L2 scalarization)를 통해 set-to-set 맵으로 확장하며, Layer-wise Relevance Propagation (LRP)의 정신을 따라 레이어 내부의 기여도를 결합합니다. 이때 IG 완결성(completeness)은 각 경계에서 LRP 스타일의 보존(conservation) 역할을 수행합니다. 우리는 LIG를 사용하여 (i) L2 기준 하에서 모듈별 결합(module-wise composition)과 레이어 전체 귀속(layer-whole attribution) 사이의 일치 여부, 그리고 (ii) 분리된 ATT 및 MLP 기여도를 추적함으로써 레이어 내부의 정보 흐름을 분석합니다. BERT-base 및 PTB에서 레이어 내부 일관성을 가장 잘 보존하는 설정은 대상 토큰의 임베딩을 ATT 베이스라인(baseline)으로 사용하고, MLP 베이스라인으로는 a=0에서의 ATT 출력 또는 Zero를 사용하는 것이었습니다. 따라서 우리는 모델별 재학습이나 연산별 해석기(interpreter) 설계 없이도 모듈 경계 수준의 정밀도를 가진 진단용 XAI 도구로서 LIG를 제시합니다. 코드는 https://github.com/eightsuzuki/layer-wise-integrated-gradients 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LIG: Transformer 내 레이어 간 흐름 분석을 위한 레이어별 통합 기울기 (Layer-wise Integrated Gradients)

요약

핵심 포인트

댓글