차단 모델 간 회로 전이를 위한 미분 가능 충실도 정렬

기계론적 해석 가능성 (Mechanistic interpretability) 은 언어 모델의 특정 동작 뒤에 숨겨진 회로를 국소화하는 것을 가능하게 했지만, 기존 방법은 비용이 많이 들고 모델에 특화되어 있으며 더 큰 아키텍처로 확장하기 어렵습니다. 우리는 학습된 미분 가능 정렬을 통해 작은 소스 모델에서 큰 타겟 모델로 회로 정보를 전이하는 extbf{Differentiable Faithfulness Alignment (DFA)} 프레임워크를 소개합니다. DFA 는 소스 모델의 노드 중요도 점수를 타겟 모델로 투영하고, 완전한 회로 발견 없이 소프트 충실도 목표 (soft faithfulness objective) 로 이 매핑을 훈련합니다. 우리는 사실성 검색, 다중 선택 추론, 산술에 이르는 여섯 가지 작업에서 Llama-3 와 Qwen-2.5 에서 DFA 를 평가했습니다. 가장 강력한 결과는 Llama-3 $1$B$
ightarrow3$B 에서 발생하며, 정렬된 회로는 종종 직접 노드 귀속 (direct node attribution) 과 경쟁할 수 있으며, 영시도 전이 (zero-shot transfer) 는 여전히 효과적입니다. 소스--타겟 간격이 커질수록 회복력은 약화되며, Qwen-2.5 에서 회복률은 현저히 낮아 아키텍처 및 스케일링 차이가 증가함에 따라 전이가 더 어려워짐을 시사합니다. 전반적으로 DFA 는 간단한 베이스라인보다 일관되게 우수하며, 일부 설정에서는 직접 귀속과 비교할 수 있거나 더 강력한 충실도를 갖는 타겟 모델 회로를 회복합니다. 이러한 결과는 작은 모델이 큰 모델에 유용한 기계론적 사전 지식을 제공할 수 있음을 시사하면서도, 노드 수준의 차단 모델 간 회로 정렬의 가능성과 한계를 동시에 강조합니다.ootnote{코드는 https://github.com/jasonshaoshun/dfa-circuits 에서 이용 가능합니다.}

Insights

차단 모델 간 회로 전이를 위한 미분 가능 충실도 정렬

요약

핵심 포인트

댓글

Walmart 분기 실적 프리뷰: 알아야 할 사항

실적 프리뷰: Ross Stores의 보고서에서 기대할 수 있는 것

미국 메모리 주식의 하락, 투자자들에게 새로운 매수 기회 제공할 수도

Claude에게 물어본 Opus 5에서 변경하면 좋은 프롬프트 등의 개인적인 정리

Walmart 분기 실적 프리뷰: 알아야 할 사항

실적 프리뷰: Ross Stores의 보고서에서 기대할 수 있는 것

미국 메모리 주식의 하락, 투자자들에게 새로운 매수 기회 제공할 수도

Claude에게 물어본 Opus 5에서 변경하면 좋은 프롬프트 등의 개인적인 정리