본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 11. 22:24

위치: 메커니즘 해석 가능성은 인과적 주장을 위해 식별 가정을 공개해야 한다

요약

최근 메커니즘 해석 가능성 연구들은 회로, 매개자 등 인과적 용어를 사용하며 발전하고 있지만, 이들의 주장은 명시적인 식별 가정(identification assumptions)을 요구합니다. 본 논문은 여러 관련 논문을 감사한 결과, 대부분의 연구가 이러한 가정을 명확히 밝히지 않고 검증 지표를 통해 인과적 지원으로 제시하는 패턴을 발견했습니다. 따라서 저자들은 주장된 인과성을 뒷받침하기 위해 식별 전략과 그 가정들을 투명하게 공개해야 하는 새로운 규범(disclosure norm)을 제안합니다.

핵심 포인트

  • 메커니즘 해석 가능성 연구가 인과적 용어(회로, 매개자 등)를 사용하며 발전하고 있다.
  • 대부분의 관련 논문은 주장의 근거가 되는 명시적인 식별 가정을 공개하지 않고 검증 지표만 제시하는 경향이 있다.
  • 저자들은 인과적 주장을 할 때, 어떤 전략을 사용하여 해당 주장을 '식별'했는지(identification)를 명확히 밝혀야 한다고 주장한다.
  • 제안된 규범에 따르면, 연구는 가정을 열거하고, 그 가정이 실패할 경우 결론이 어떻게 달라지는지까지 설명해야 한다.

메커니즘 해석 가능성(Mechanistic interpretability) 논문들은 점차적으로 인과적 어휘, 즉 회로(circuits), 매개자(mediators), 인과 추상화(causal abstraction), 단일 의미성(monosemanticity) 등을 사용하고 있습니다. 이러한 주장들은 명시적인 식별 가정(identification assumptions)을 필요로 합니다. 네 가지 방법론적 흐름에 걸친 10개의 논문에 대한 목적성 감사(purposive audit)를 수행한 결과, 전용의 식별 가정 섹션은 발견되지 않았으며, 반복되는 패턴이 나타났습니다: 충실도(faithfulness), 완전성(completeness), 단일 의미성(monosemanticity), 정렬(alignment), 또는 제거 효과(ablation effects)와 같은 검증 지표들이 그것들을 식별하게 만드는 가정을 명시하지 않은 채 인과적 지원으로 보고됩니다. $n=30$에 대한 2인 코더 감사(two-human-coder audit)는 주요 발견의 방향을 재현했습니다: 전용의 식별 섹션은 부재하며, 검증 지표 대체가 흔하지만, 정확한 Dim B/D 개수는 코딩 규칙에 민감합니다. 본 논문은 공개 규범(disclosure norm)을 제안합니다: 주장이 인과적인지 명시하고, 식별 전략을 명명하며, 가정을 열거하고, 적어도 하나를 강조하며, 가정이 실패할 경우 결론이 어떻게 바뀌는지 설명해야 합니다. 검증(Validation)은 식별(Identification)이 아닙니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0