arXiv논문2026. 06. 18. 12:25

프로그램 합성(Program Synthesis)을 통한 어텐션(Attention) 설명

요약

프로그램 합성을 활용하여 트랜스포머 모델의 어텐션 헤드 동작을 실행 가능한 Python 코드로 근사화하는 연구를 제안합니다. GPT-2, Llama-3B 등의 모델에서 어텐션 패턴을 성공적으로 재현했으며, 모델 성능을 유지하면서도 상징적 투명성을 확보할 수 있음을 입증했습니다.

핵심 포인트

프로그램 합성을 통한 어텐션 헤드의 상징적 기술(Symbolic Description) 구현
GPT-2, TinyLlama, Llama-3B 모델의 어텐션 패턴 재현 성공
TinyStories 데이터셋에서 75% 이상의 평균 IoU 유사도 달성
어텐션 헤드의 25%를 프로그램으로 교체해도 모델 성능 유지 가능

해석 가능한 딥러닝 (interpretable deep learning) 연구의 오랜 목표는 불투명한 신경망 연산 (neural computations)을 인간이 이해할 수 있는 상징적 기술 (symbolic descriptions)로 대체하는 것입니다. 본 논문에서 우리는 실행 가능한 프로그램 (executable programs)을 통해 딥 네트워크 (deep networks) 구성 요소의 동작을 근사화하는 접근 방식을 제안합니다. 우리는 트랜스포머 (transformer) 언어 모델의 어텐션 헤드 (attention heads)에 집중합니다. 특정 헤드에 대해, 우리는 먼저 무작위로 선택된 학습 예시 집합에 대한 관련 어텐션 행렬 (attention matrices)을 계산합니다. 다음으로, 사전 학습된 언어 모델 (pre-trained language model)에 이러한 행렬들의 요약본을 프롬프트로 제공하고, 입력 문장의 텍스트만 주어졌을 때 관련 어텐션 패턴을 재현할 수 있는 일련의 Python 프로그램들을 생성하도록 지시합니다. 마지막으로, 최종 프로그램 집합이 홀드아웃 입력 (held-out inputs)에 대해 동작을 얼마나 잘 예측하는지에 따라 프로그램들의 순위를 재조정 (re-rank)합니다. 우리는 1,000개 미만의 생성된 프로그램 집합이 GPT-2, TinyLlama-1.1B, 그리고 Llama-3B의 헤드 어텐션 패턴을 재현할 수 있음을 입증하였으며, TinyStories 데이터셋에서 75% 이상의 평균 IoU (Intersection-over-Union) 유사도를 달성했습니다. 더욱이, 최적합 프로그램 (best-fit programs)은 모델의 동작에 실질적인 영향을 미치지 않으면서 신경망 어텐션 헤드를 대체할 수 있습니다. 세 모델 전체에서 어텐션 헤드의 25%를 프로그램 기반 대리물 (programmatic surrogates)로 교체했을 때 평균 퍼플렉시티 (perplexity) 증가율은 16%에 불과했으며, 다양한 다운스트림 질의응답 (question answering) 벤치마크에서의 성능을 유지했습니다. 본 연구는 인간이 읽을 수 있고 실행 가능한 코드를 사용하여 트랜스포머 모델의 어텐션 헤드를 역공학 (reverse-engineering)하는 확장 가능한 파이프라인을 제공하며, 신경망 모델의 상징적 투명성 (symbolic transparency)을 향한 경로를 발전시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

프로그램 합성(Program Synthesis)을 통한 어텐션(Attention) 설명

요약

핵심 포인트

댓글