arXiv논문2026. 06. 24. 11:20

개념 주석을 활용한 희소 오토인코더 (Sparse Autoencoders)의 해석 가능성 평가

요약

희소 오토인코더(SAE)의 해석 가능성을 정량적으로 평가하기 위한 새로운 인간 기반 프레임워크를 제안합니다. 사용자 연구 없이도 잠재 변수와 주석된 개념 간의 정렬을 측정하며, 합성 벤치마크와 새로운 매칭 절차를 통해 성능을 검증합니다.

핵심 포인트

SAE 잠재 변수와 인간 주석 개념 간의 정량적 정렬 프레임워크 제시
이미지 합성 벤치마크인 synCUB 및 synCOCO 구축
다대일 매핑을 지원하는 FBMP 매칭 절차 도입
표적 속성 섭동을 활용한 TAPAScore 평가 지표 제안
사전 크기(dictionary size)가 해석 가능성에 미치는 영향 분석

희소 오토인코더 (Sparse Autoencoders, SAEs)는 시각 및 시각-언어 모델 (vision and vision language models)에서 해석 가능한 개념을 추출하는 데 점점 더 많이 사용되고 있지만, 기존의 평가 방법들은 의미론적 대응 (semantic correspondence)을 측정하기보다는 주로 대리 지표 (proxy metrics)나 정성적 검사 (qualitative inspection)에 의존하고 있습니다. 우리는 사용자 연구 (user studies)를 필요로 하지 않으면서 SAE 잠재 변수 (latents)와 인간이 주석을 단 개념 (human-annotated concepts) 사이의 정렬 (alignment)을 정량화하는 인간 기반 평가 프레임워크를 제시하며, 표적 속성 섭동 (targeted attribute perturbations)을 통해 이 매칭을 검증합니다. 시각 분야에서 이러한 개입 방식의 평가 (intervention-style evaluation)를 가능하게 하기 위해, 우리는 정확히 하나의 속성만 다른 쌍으로 이루어진 이미지 합성 벤치마크인 synCUB와 synCOCO를 구축합니다. 우리는 SAE 잠재 변수와 주석이 달린 개념 사이의 다대일 매핑 (many-to-one mappings)을 지원하며, 일대일 베이스라인 (one-to-one baselines)보다 일관되게 우수한 성능을 보이는 연합 기반 매칭 절차인 Fully-Binary Matching Pursuit (FBMP)를 도입합니다. 기능적 검증을 위해, 우리는 표적 이미지 수준의 속성 섭동 하에서 매칭된 개념이 선택적으로 그리고 예상된 방향으로 반응하는지 테스트하는 표적 속성 섭동 정렬 점수 (Targeted Attribute Perturbation Alignment Score, TAPAScore)를 제안합니다. 건전성 검사 (sanity checks) 결과, 우리의 매칭 방식과 TAPAScore는 훈련된 SAE와 훈련되지 않은 SAE를 안정적으로 구별하는 유일한 평가 지표였습니다. CLIP 및 DINOv2 임베딩 (embeddings)으로 훈련된 SAE들에 대해 조사한 결과, 과완전성 (overcompleteness)이 증가하면 섭동 정렬 (perturbation alignment)이 감소할 수 있으며, 이는 해석 가능성 (interpretability)의 감소를 나타낸다는 것을 발견했습니다. 우리의 평가 프레임워크는 적절한 사전 크기 (dictionary sizes)가 가장 좋은 절충안을 제공하여 가장 해석 가능한 SAE를 생성한다는 점을 시사합니다. 코드와 데이터셋은 https://github.com/JonasKlotz/sae-concept-eval 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

개념 주석을 활용한 희소 오토인코더 (Sparse Autoencoders)의 해석 가능성 평가

요약

핵심 포인트

댓글