본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 20:30

차단 모델 간 회로 전이를 위한 미분 가능 충실도 정렬

요약

본 논문은 '미분 가능 충실도 정렬(Differentiable Faithfulness Alignment, DFA)'이라는 새로운 프레임워크를 제안하여 작은 소스 모델의 회로 정보를 큰 타겟 모델로 전이하는 방법을 제시합니다. DFA는 노드 중요도 점수를 투영하고 소프트 충실도 목표를 통해 매핑을 학습함으로써, 완전한 회로 발견 없이 효율적으로 지식을 전달할 수 있습니다. 실험 결과, Llama-3 1B에서 3B로의 전이는 매우 강력했으며, 정렬된 회로는 직접 노드 귀속과 경쟁할 만큼 높은 성능을 보였으나, 소스-타겟 간격이 커질수록 전이 효과는 약화되는 한계점도 확인했습니다.

핵심 포인트

  • DFA 프레임워크를 통해 작은 모델의 회로 지식을 큰 모델로 효율적으로 전이할 수 있다.
  • DFA는 노드 중요도 점수를 투영하고 소프트 충실도 목표를 사용하여 훈련된다.
  • Llama-3 1B $ o$ 3B와 같은 특정 설정에서 매우 강력한 성능을 보여, 직접적인 회로 발견과 경쟁할 만하다.
  • 소스 모델과 타겟 모델 간의 크기 차이가 클수록 전이되는 회로 정보의 복원력은 약화된다.

기계론적 해석 가능성 (Mechanistic interpretability) 은 언어 모델의 특정 동작 뒤에 숨겨진 회로를 국소화하는 것을 가능하게 했지만, 기존 방법은 비용이 많이 들고 모델에 특화되어 있으며 더 큰 아키텍처로 확장하기 어렵습니다. 우리는 학습된 미분 가능 정렬을 통해 작은 소스 모델에서 큰 타겟 모델로 회로 정보를 전이하는 extbf{Differentiable Faithfulness Alignment (DFA)} 프레임워크를 소개합니다. DFA 는 소스 모델의 노드 중요도 점수를 타겟 모델로 투영하고, 완전한 회로 발견 없이 소프트 충실도 목표 (soft faithfulness objective) 로 이 매핑을 훈련합니다. 우리는 사실성 검색, 다중 선택 추론, 산술에 이르는 여섯 가지 작업에서 Llama-3 와 Qwen-2.5 에서 DFA 를 평가했습니다. 가장 강력한 결과는 Llama-3 $1$B$
ightarrow3$B 에서 발생하며, 정렬된 회로는 종종 직접 노드 귀속 (direct node attribution) 과 경쟁할 수 있으며, 영시도 전이 (zero-shot transfer) 는 여전히 효과적입니다. 소스--타겟 간격이 커질수록 회복력은 약화되며, Qwen-2.5 에서 회복률은 현저히 낮아 아키텍처 및 스케일링 차이가 증가함에 따라 전이가 더 어려워짐을 시사합니다. 전반적으로 DFA 는 간단한 베이스라인보다 일관되게 우수하며, 일부 설정에서는 직접 귀속과 비교할 수 있거나 더 강력한 충실도를 갖는 타겟 모델 회로를 회복합니다. 이러한 결과는 작은 모델이 큰 모델에 유용한 기계론적 사전 지식을 제공할 수 있음을 시사하면서도, 노드 수준의 차단 모델 간 회로 정렬의 가능성과 한계를 동시에 강조합니다. ootnote{코드는 https://github.com/jasonshaoshun/dfa-circuits 에서 이용 가능합니다.}

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
9

댓글

0