arXiv논문2026. 06. 16. 12:40

대규모 언어 모델(LLM) 해석을 위한 확장 가능한 회로 학습

요약

LLM의 동작 원리를 규명하기 위해 희소 회로를 효율적으로 학습하는 CircuitLasso를 제안합니다. SAE 특징의 높은 차원성 문제를 해결하여 기존 방식보다 적은 계산 비용으로 정확한 회로를 복구합니다.

핵심 포인트

희소 선형 회귀 기반의 CircuitLasso 제안
기존 개입 기반 방법 대비 계산 비용 대폭 절감
SAE 특징 간의 관계 및 의미론적 특징 전파 규명
도메인 일반화 작업에서의 실질적 유용성 검증

기계론적 해석 가능성 (mechanistic interpretability) 분야의 저명한 연구 방향 중 하나는 LLM 구성 요소들에 대한 희소 회로 (sparse circuits)를 학습하여, 이들이 어떻게 공동으로 모델의 동작을 생성하는지 밝혀내는 것입니다. 그러나 가공되지 않은 뉴런 (raw neurons)은 다의성 (polysemantic)을 띠고 있어, 학습된 회로를 해석하기 어렵게 만듭니다. 희소 오토인코더 (Sparse autoencoder, SAE) 특징 (features)이 이를 완화해주지만, 높은 차원성으로 인해 기존의 개입 기반 (intervention-based) 회로 학습 방법들은 계산 비용이 지나치게 높습니다. 우리는 희소 선형 회귀 (sparse linear regression)에 기반한 확장 가능한 회로 학습 접근 방식인 CircuitLasso를 제안합니다. CircuitLasso는 벤치마크 데이터에서 최첨단 개입 기반 방법들과 대등한 구조적 정확도를 가진 회로를 훨씬 적은 계산 비용으로 복구합니다. 해석 가능성 측면에서, CircuitLasso는 SAE 특징들 사이의 관계를 효율적으로 밝혀내어, 인간이 해석 가능한 의미론적 특징 (semantic features)이 모델을 통해 어떻게 전파되고 예측에 영향을 미치는지 보여줍니다. 마지막으로, 우리는 학습된 회로의 통찰력을 활용하여 도메인 일반화 (domain-generalization) 작업에서 실질적으로 더 낮은 비용으로 유사한 성능을 달성함으로써 학습된 회로의 유용성을 검증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델(LLM) 해석을 위한 확장 가능한 회로 학습

요약

핵심 포인트

댓글