arXiv논문2026. 05. 28. 12:36

편향은 그래디언트 흔적을 남긴다: 개념 분해에 대한 그래디언트 프로브를 통한 라벨 없는 편향 식별

요약

고정된 비전 모델에서 라벨 없이 가짜 상관관계를 식별하는 새로운 사후(post-hoc) 분석 방법을 제안합니다. NMF와 그래디언트 상호작용을 활용해 편향된 개념을 추출하며, 재학습 없이도 모델의 최악 그룹 정확도를 크게 향상시킵니다.

핵심 포인트

라벨 없이 가짜 개념을 식별하는 bias-label-free 방법론 제시
NMF와 역전파된 그래디언트를 결합한 편향 추정기 활용
재학습 없이 추론 시점에 편향 개념을 억제하여 성능 개선
Waterbirds 및 CelebA 데이터셋에서 유의미한 정확도 향상 입증

비전 분류기(Vision classifiers)는 가짜 상관관계(spurious correlations)를 이용할 수 있으며, 이로 인해 분포 내(in-distribution) 정확도는 높게 나타나지만 분포 변화(distribution shift) 상황에서는 실패할 수 있습니다. 편향 완화 및 분석에 관한 기존 방식들은 종종 정제된 데이터셋, 가짜 속성(spurious-attribute) 또는 그룹 라벨, 혹은 재학습(retraining)에 의존하는데, 이는 모델이 배포된 이후나 관련 편향이 알려지지 않은 경우에는 실행이 불가능할 수 있습니다. 본 논문에서는 고정된(frozen) 비전 모델에서 가짜 개념(spurious concepts)을 식별하기 위해, 별도의 감사 데이터셋(audit dataset)에서 제공되는 표준 클래스 라벨에만 의존하는 라벨 없는(bias-label-free) 사후(post-hoc) 방법을 제시합니다. 각 타겟 클래스에 대해, 해당 클래스로 예측된 입력으로부터 패치(patches)를 수집하고 중간 활성화(intermediate activations)에 비음수 행렬 분해(non-negative matrix factorization, NMF)를 적용하여 해석 가능한 개념 벡터(concept vectors) 뱅크를 얻습니다. 이후 오분류된 예시들에 대해 역전파된 그래디언트(backpropagated gradients)와의 상호작용으로부터 유도된 편향 추정기(bias estimator)를 사용하여 후보 개념들의 순위를 매깁니다. 즉, 편향 개념은 거짓 음성(false negatives)을 수정할 때 활성화되는 경향이 있고, 거짓 양성(false positives)을 수정할 때는 억제되는 경향이 있습니다. Colored MNIST와 Waterbirds 데이터셋에서 이 방법은 알려진 가짜 단서(spurious cue)와 일치하는 개념을 복구해냈으며, CelebA에서는 주석 처리된 성별 속성과 부분적으로만 일치하는 의사결정 관련 방향(decision-relevant directions)을 드러냈습니다. 재학습이나 파라미터 업데이트 없이도 추론 시점에 상위 순위의 개념들을 억제함으로써, Waterbirds에서는 최악 그룹 정확도(worst-group accuracy)를 최대 17.9%포인트, CelebA에서는 10.4%포인트 향상시켰습니다. 우리의 방법은 주석 처리된 것과 반드시 일치할 필요는 없는 의사결정 관련 가짜 방향을 식별하며, 고정된 비전 모델을 위한 해석 가능한 감사 도구와 실행 가능한 편향 제거 핸들(debiasing handle)을 모두 제공합니다. 코드는 https://github.com/vitryt/label-free-bias-identification 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

편향은 그래디언트 흔적을 남긴다: 개념 분해에 대한 그래디언트 프로브를 통한 라벨 없는 편향 식별

요약

핵심 포인트

댓글