arXiv논문2026. 05. 27. 12:03

LLM에서의 연산 밀도 추적 (Tracing Computation Density in LLMs)

요약

LLM의 연산 효율성을 분석하기 위해 서브그래프를 추정하는 s-Trace 방법을 제안합니다. 연구 결과, LLM의 연산은 초기 레이어의 대략적인 예측과 후기 레이어의 정교화 과정이라는 모듈형 구조로 조직되어 있음을 발견했습니다.

핵심 포인트

s-Trace를 통한 LLM 서브그래프 효율적 추정 방법론 제시
초기 레이어는 모델 출력의 헤드 부분을 재구성함
후기 레이어의 어텐션 헤드가 출력을 점진적으로 정교화함
필요 연산량과 모델의 불확실성 간의 상관관계 확인
LLM 연산의 일관된 모듈형 조직 구조 발견

Transformer 기반 대규모 언어 모델 (LLMs)은 깊고 넓은 연산 그래프 (computational graphs)로 배열된 수십억 개의 파라미터로 구성되어 있지만, 이들이 모든 입력에 대해 전체 용량을 완전히 활용하는지는 명확하지 않습니다. 우리는 전체 모델 출력에 가장 가깝게 근사하는 크기 $s$의 서브그래프 (subgraph)를 효율적으로 추정하는 s-Trace 방법을 소개합니다. 이 방법을 통해 우리는 다양한 LLM의 연산이 두 개의 뚜렷한 단계로 조직되어 있음을 발견했습니다. 주로 초기 레이어 (early-layer) 노드들로 구성된 작은 서브그래프는 전체 모델 출력 분포의 헤드 (head) 부분을 재구성할 수 있습니다. 주로 후기 레이어 (later layers)에 위치하며 점점 더 어텐션 헤드 (attention heads)로 구성되는 노드들을 추가하면, 전체 출력 분포를 근사하는 과정에서 점진적인 정교화 (refinements)가 이루어집니다. 나아가 우리는 입력당 필요한 연산량이 모델의 불확실성 (uncertainty)과 상관관계가 있으며, 더 희소한(sparser) 서브그래프는 유니그램 빈도 (unigram frequency)와 같은 얕은 통계량 (shallow statistics)을 인코딩한다는 것을 발견했습니다. 전반적으로 우리의 결과는 효과적인 LLM 연산에 있어 일관된 모듈형 조직이 존재함을 시사하며, 희소한 초기 레이어 코어가 대략적인 예측을 제공하고 후기 레이어의 더 밀도 높은 연산을 통해 이를 더욱 정교화한다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM에서의 연산 밀도 추적 (Tracing Computation Density in LLMs)

요약

핵심 포인트

댓글