arXiv논문2026. 05. 11. 22:24

위치: 메커니즘 해석 가능성은 인과적 주장을 위해 식별 가정을 공개해야 한다

요약

최근 메커니즘 해석 가능성 연구들은 회로, 매개자 등 인과적 용어를 사용하며 발전하고 있지만, 이들의 주장은 명시적인 식별 가정(identification assumptions)을 요구합니다. 본 논문은 여러 관련 논문을 감사한 결과, 대부분의 연구가 이러한 가정을 명확히 밝히지 않고 검증 지표를 통해 인과적 지원으로 제시하는 패턴을 발견했습니다. 따라서 저자들은 주장된 인과성을 뒷받침하기 위해 식별 전략과 그 가정들을 투명하게 공개해야 하는 새로운 규범(disclosure norm)을 제안합니다.

핵심 포인트

메커니즘 해석 가능성 연구가 인과적 용어(회로, 매개자 등)를 사용하며 발전하고 있다.
대부분의 관련 논문은 주장의 근거가 되는 명시적인 식별 가정을 공개하지 않고 검증 지표만 제시하는 경향이 있다.
저자들은 인과적 주장을 할 때, 어떤 전략을 사용하여 해당 주장을 '식별'했는지(identification)를 명확히 밝혀야 한다고 주장한다.
제안된 규범에 따르면, 연구는 가정을 열거하고, 그 가정이 실패할 경우 결론이 어떻게 달라지는지까지 설명해야 한다.

메커니즘 해석 가능성(Mechanistic interpretability) 논문들은 점차적으로 인과적 어휘, 즉 회로(circuits), 매개자(mediators), 인과 추상화(causal abstraction), 단일 의미성(monosemanticity) 등을 사용하고 있습니다. 이러한 주장들은 명시적인 식별 가정(identification assumptions)을 필요로 합니다. 네 가지 방법론적 흐름에 걸친 10개의 논문에 대한 목적성 감사(purposive audit)를 수행한 결과, 전용의 식별 가정 섹션은 발견되지 않았으며, 반복되는 패턴이 나타났습니다: 충실도(faithfulness), 완전성(completeness), 단일 의미성(monosemanticity), 정렬(alignment), 또는 제거 효과(ablation effects)와 같은 검증 지표들이 그것들을 식별하게 만드는 가정을 명시하지 않은 채 인과적 지원으로 보고됩니다. $n=30$에 대한 2인 코더 감사(two-human-coder audit)는 주요 발견의 방향을 재현했습니다: 전용의 식별 섹션은 부재하며, 검증 지표 대체가 흔하지만, 정확한 Dim B/D 개수는 코딩 규칙에 민감합니다. 본 논문은 공개 규범(disclosure norm)을 제안합니다: 주장이 인과적인지 명시하고, 식별 전략을 명명하며, 가정을 열거하고, 적어도 하나를 강조하며, 가정이 실패할 경우 결론이 어떻게 바뀌는지 설명해야 합니다. 검증(Validation)은 식별(Identification)이 아닙니다.

AI 자동 생성 콘텐츠

원문 바로가기

위치: 메커니즘 해석 가능성은 인과적 주장을 위해 식별 가정을 공개해야 한다

요약

핵심 포인트

댓글