arXiv중요논문2026. 04. 23. 23:29

LayerTracer: 범용 LLM 아키텍처 분석 프레임워크

요약

본 논문은 기존 트랜스포머(Transformer), Mamba 등 다양한 구조를 가진 대규모 언어 모델(LLM)의 아키텍처적 한계를 극복하기 위해 'LayerTracer'라는 범용 분석 프레임워크를 제안합니다. LayerTracer는 모델의 은닉 상태(hidden states)를 레이어별로 추출하고 이를 어휘 확률 분포에 매핑하여 두 가지 핵심 요소를 동시에 분석합니다. 첫째, **태스크 입자(task particle)**는 목표 토큰 확률이 급격히 상승하는 최초의 레이어를 찾아 모델의 작업 시작점을 파악합니다. 둘째, **취약층(

핵심 포인트

LayerTracer는 트랜스포머와 Mamba 등 모든 LLM 아키텍처에 적용 가능한 범용 분석 도구입니다.
태스크 입자(task particle)를 통해 모델이 특정 작업을 시작하는 핵심 레이어를 식별할 수 있습니다.
취약층(vulnerable layer)을 정의하여 마스크 교란에 대한 각 레이어의 민감도를 정량적으로 측정합니다.
분석 결과, 태스크 입자는 파라미터 크기와 무관하게 깊은 레이어에서 나타나며, 큰 모델일수록 계층적 강건성(hierarchical robustness)이 높음을 확인했습니다.

대규모 언어 모델(LLM)의 아키텍처는 트랜스포머(Transformer), Mamba 등 매우 다양해지고 있습니다. 하지만 이러한 다양한 구조를 가진 LLM에서 계층적 표현, 작업 지식 형성 위치, 네트워크 강건성 병목 현상 등의 작동 원리는 여전히 불분명합니다.

이에 본 논문은 어떤 아키텍처에도 구애받지 않는 LayerTracer라는 종단 간(end-to-end) 분석 프레임워크를 제안합니다. LayerTracer는 모델의 은닉 상태를 레이어별로 추출하고 이를 어휘 확률 분포에 매핑하여 두 가지 핵심 분석을 동시에 수행합니다.

첫째, **태스크 입자(task particle)**입니다. 이는 목표 토큰의 확률이 유의미하게 처음 상승하는 핵심 레이어를 의미하며, 모델이 특정 작업을 시작하는 지점을 나타냅니다. 둘째, **취약층(vulnerable layer)**은 마스크 교란 전후 출력 분포 간의 젠센-섀넌(Jensen-Shannon, JS) 발산(divergence)이 최대인 레이어로, 해당 레이어의 외부 방해에 대한 민감도를 측정합니다.

다양한 파라미터 크기의 모델 실험 결과, 태스크 입자는 모델 규모와 관계없이 주로 깊은 레이어에서 발견되었습니다. 또한, 파라미터가 큰 모델일수록 더 강력한 계층적 강건성을 보이는 것으로 나타났습니다. LayerTracer는 이러한 분석을 통해 하이브리드 아키텍처의 레이어 분할, 모듈 비율 결정 등에 과학적 근거를 제공하며, LLM 구조 설계 및 해석 가능성(interpretability) 연구에 보편적인 지원을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LayerTracer: 범용 LLM 아키텍처 분석 프레임워크

요약

핵심 포인트

댓글