arXiv논문2026. 06. 11. 11:19

보호 속성 없이 편향 제거: 텍스트 프로필에서 잠재 개념 지우기

요약

본 논문은 보호 속성에 직접 접근할 수 없는 실제 환경에서의 편향 제거 방법을 제안합니다. H-SAL이라는 프레임워크는 자기 설명 텍스트를 활용하여 사후 개념 및 속성 지우기를 수행하며, 이를 위해 다중 도메인 Stack Exchange 기반의 공정성 벤치마크를 도입했습니다. 연구 결과, 암묵적인 자기 설명이 명시적 레이블 기반 방법과 유사하거나 더 나은 성능을 보였습니다.

핵심 포인트

보호 속성 직접 접근 없이 편향 제거 가능성을 탐구함.
H-SAL 프레임워크는 자기 설명 텍스트를 이용해 개념/속성 지우기를 수행.
다중 도메인 Stack Exchange 기반의 새로운 공정성 벤치마크 제시.
암묵적 자기 설명이 명시적 레이블 기반 방법과 비교하여 우수한 성능을 보임.

NLP 분야의 대부분의 공정성 연구는 성별, 인종 또는 국적과 같은 보호 속성에 대한 직접적인 접근을 가정합니다. 하지만 실제로는 개인 정보 보호 제약, 누락된 메타데이터 또는 법적 제한으로 인해 이러한 정보가 종종 이용 불가능하며, 모델이 간접적인 텍스트 단서로부터 이를 추론할 수 있음에도 불구하고 그렇습니다. 이는 핵심 질문을 제기합니다: 민감 속성에 대한 직접적인 접근 없이도 편향 제거가 성공할 수 있을까요? 우리는 H-SAL을 제안하는데, 이는 자기 설명 텍스트를 암묵적인 편향 제거 신호로 사용하여 사후(post-hoc) 개념 및 속성 지우기를 수행합니다. 이 설정을 지원하기 위해, 우리는 명시적 및 암묵적 신호를 모두 포함하는 도움이 되는 예측을 위한 다중 도메인 Stack Exchange 기반 공정성 벤치마크를 도입했습니다. 이는 보호 레이블을 사용한 표준 편향 제거와 민감 정보 접근 없이 수행되는 편향 제거 간의 비교를 가능하게 합니다. 인코더 전용 및 디코더 전용 언어 모델 전반에 걸쳐, 우리는 암묵적인 자기 설명이 종종 명시적 레이블 기반 편향 제거와 일치하거나 이를 능가한다는 것을 발견했습니다. 우리의 결과는 표현 수준 공정성 연구를 확장하고 현실적인 데이터 제약 조건 하에서 편향 제거를 연구하기 위한 새로운 벤치마크를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

보호 속성 없이 편향 제거: 텍스트 프로필에서 잠재 개념 지우기

요약

핵심 포인트

댓글