arXiv논문2026. 06. 30. 13:03

사후 개념 병목 모델(Post-Hoc Concept Bottleneck Models)의 충실도에 관하여

요약

사후 개념 병목 모델(Post-Hoc CBMs)에서 예측 정확도가 개념의 의미론적 유의미성을 보장하지 못하는 문제를 분석합니다. 공변량 변화와 라벨 노이즈로 인한 불충실한 개념 표현 사례를 식별하고, 이를 평가하기 위한 새로운 지표를 제안합니다.

핵심 포인트

예측 정확도와 개념의 의미론적 충실도 사이의 괴리 분석
공변량 변화가 불충실한 개념 표현을 초래하는 메커니즘 규명
시각-언어 모델의 라벨 노이즈가 미치는 영향 분석
정확도 기반 평가의 한계를 극복하는 새로운 충실도 지표 도입

인간의 의사결정은 새의 배 색깔을 보고 새를 인식하는 것과 같이 고차원적인 개념을 통해 세상을 해석합니다. 불투명한 딥러닝 (Deep Learning) 표현과 인간의 이해 사이의 간극을 메우기 위해, 사후 개념 병목 모델 (Post-Hoc Concept Bottleneck Models, post-hoc CBMs)은 보조 데이터셋 (Auxiliary Datasets) 또는 시각-언어 모델 (Vision-Language Models)을 사용하여 잠재 특징 (Latent Features)을 해석 가능한 개념 공간 (Interpretable Concept Spaces)으로 투영합니다. 그러나 타겟 작업 정확도 (Target Task Accuracy)를 사후 CBM 성공의 주요 척도로 의존하는 것은, 학습된 개념이 의미론적으로 유의미한지 아니면 단순히 예측을 위한 인위적 산물 (Predictive Artifacts)인지 여부를 모호하게 만듭니다. 예를 들어, 무작위 개념 투영 (Random Concept Projections)은 의미론적으로 무의미함에도 불구하고 경쟁력 있는 정확도를 달성할 수 있습니다. 본 연구에서는 학습된 투영을 직접 분석하여 두 가지 실패 사례를 식별합니다. 첫째, 보조 데이터로부터 학습된 개념 투영의 경우, 공변량 변화 (Covariate Shifts)가 타겟 작업에 대해 불충실한 개념 표현 (Unfaithful Concept Representations)을 초래할 수 있습니다. 특히, 우리는 이 변화로 인해 발생하는 오차에 대한 상한선 (Upper Bound)을 제공합니다. 둘째, 시각-언어 모델에 의해 생성된 대리 개념 라벨 (Surrogate Concept Labels)의 체계적인 라벨 노이즈 (Label Noise)는 불충실한 투영으로 이어집니다. 이러한 실패 모드 (Failure Modes)를 공식화한 후, 우리는 개념 충실도 (Concept Faithfulness)를 예측 정확도 (Predictive Accuracy)와 분리하는 새로운 지표들을 도입합니다. 실제 및 합성 벤치마크 전반에 걸친 우리의 실증적 결과는, 이러한 지표들이 표준적인 정확도 기반 평가가 감지하지 못하는 불충실한 동작들을 식별함을 확인시켜 줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

사후 개념 병목 모델(Post-Hoc Concept Bottleneck Models)의 충실도에 관하여

요약

핵심 포인트

댓글