좋은 사과를 버킷팅: 신경망 해석의 진단 및 개선 방법

우리는 제안된 해석이 매우 충실한 입력 하위 공간을 식별하여 신경망 해석을 진단하는 방법을 제시합니다. 우리의 방법은 고수준 원인과 가설이 교차 개입 (interchange intervention) 을 통해 평가되는 인과 추상화 스타일의 해석 가능성에 특히 유용합니다. 교차 개입 정확도를 단일 전역 요약으로 취급하지 않고, 쌍별 교차 개입 행동에 따라 입력 공간을 잘 해석된 영역과 불충분히 해석된 영역으로 분할함으로써 이 프레임워크를 정교화합니다. 이는 인의 추상화를 순수한 전역 평가에서 더 진단 도구로 변화시킵니다:它不仅 측정해석의 작동 여부를 확인하지만, 또한 작동하는 지점과 실패하는 지점을 드러내며 두 경우를 구별하는 요소를 보여줍니다. 이러한 진단적 관점은 해석을 개선하기 위한 실용적인 휴리스틱도 제공합니다. 잘 해석된 영역과 불충분히 해석된 영역의 구조를 분석함으로써 고수준 가설에서 누락된 구분을 식별하고, 이전에 모델링되지 않은 중간 변수를 발견하며, 보완적인 부분 해석을 결합하여 더 강력한 하나의 해석으로 만들 수 있습니다. 우리는 이를 간단한 4 단계 레시피로 구현했으며, 이는 여러 인의 추상화 설정에 걸쳐 정보丰富的 오류 분석을 제공함을 보여줍니다. 작은 논리 작업 (toy logic task) 에서 이 레시피를 반복적으로 적용하면 고수준 가설을 처음부터 복원할 수 있습니다. 더 넓게는, 우리의 결과는 입력 공간을 분할하는 것이 더 정밀하고, 구성적이며, 확장 가능한 기계적 해석 가능성으로 가는 유용한 단계임을 시사합니다.

Insights

좋은 사과를 버킷팅: 신경망 해석의 진단 및 개선 방법

요약

핵심 포인트

댓글

Thermo Fisher, 고객 활동 강화에 따라 2026년 매출 474억~481억 달러 및 조정 EPS 24.93~25.33달러 전망

자율 에이전트(Autonomous agents)는 쉬운 부분이다

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

Thermo Fisher, 고객 활동 강화에 따라 2026년 매출 474억~481억 달러 및 조정 EPS 24.93~25.33달러 전망

자율 에이전트(Autonomous agents)는 쉬운 부분이다

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.