LLM의 회로 발견(Circuit Discovery)에서 나타나는 분산(Variance)의 실체 규명
요약
LLM의 회로 발견(Circuit Discovery) 과정에서 발생하는 세 가지 주요 분산(재샘플링, 재구문, 샘플별 분산)의 원인을 규명합니다. 새로운 방법론인 CEAP를 통해 재샘플링 분산을 줄일 수 있음을 입증하고, 프롬프트 템플릿 변화가 회로 활성화에 미치는 영향을 분석합니다.
핵심 포인트
- 회로 발견 시 발생하는 세 가지 분산 유형(재샘플링, 재구문, 샘플별) 정의
- CEAP 방법론을 통해 재샘플링 분산 개선 가능성 입증
- 프롬프트 템플릿 차이가 서로 다른 회로를 활성화함을 확인
- 희소성(Sparsity)이 분산 문제를 해결하는 근본책이 아님을 시사
- 샘플별 분산은 불충실도 정의 방식과 스케일링 문제에서 기인함
회로 발견(Circuit discovery)은 주어진 작업을 수행하는 데 핵심적인 모델 구성 요소를 정확히 찾아내는 기계론적 해석 가능성(mechanistic interpretability) 분야의 핵심 기술입니다. 현재 최첨단 방법론인 EAP-IG는 (불)충실도(unfaithfulness) 지표에서는 좋은 성능을 보이지만, 상당한 변동성(variability) 문제를 겪고 있습니다. 여기에는 동일한 분포 내의 새로운 데이터 배치로 조사할 때 회로가 변하는 재샘플링 분산(resampling variance), 프롬프트가 재구성될 때 발견된 회로가 바뀌는 재구문 분산(rephrasing variance), 그리고 모집단 불충실도는 낮지만 개별 샘플에 따라 불충실도가 크게 요동치는 샘플별 분산(sample-wise variance)이 포함됩니다. 본 논문은 이러한 분산들의 근원을 연구합니다. 우리는 이론적 보증을 통해 EAP-IG를 개선한 새로운 회로 발견 방법론인 CEAP가 재샘플링 분산을 실질적으로 줄일 수 있음을 입증합니다. 나아가 우리는 재구문 분산이 서로 다른 템플릿을 가진 프롬프트들이 모델 내에서 서로 다른 회로를 활성화하는 경향이 있기 때문에 발생한다는 것을 보여줍니다. 이는 수많은 템플릿으로 표현될 수 있는 작업에 대해 모델의 동작을 설명하고 제어할 수 있는 포괄적인 회로를 찾는 것이 어려울 수 있음을 시사하며, 결과적으로 LLM을 조종(steer)하는 것이 본질적으로 어려울 수 있다는 논거로 이어집니다. 우리는 더 작고 해석 가능한 작업 회로를 형성한다고 주장되어 온 희소성(sparsity)이 이 문제를 해결하지 못함을 보여줍니다. 샘플별 분산과 관련하여, 우리는 이것이 대체로 무해(benign)하다고 주장합니다. 극도로 낮은 불충실도 점수는 측정된 회로의 결함보다는 불충실도가 정의되는 방식에서 기인하는 경우가 많습니다. 우리는 불충실도의 크기가 선택적 기여도 스케일링(selective contribution scaling)에 의해 영향을 받으며, 이것이 때때로 관찰되는 극도로 낮은 점수의 원인이 되는 신경 메커니즘임을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기