본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 10:58

합의(Agreement) 및 레이블 얽힘 해제(Label Disentanglement)를 통한 해석 가능한 판별적 텍스트 표현

요약

본 논문은 해석 가능한 텍스트 표현을 위해 '합의(Agreement)'와 '레이블 얽힘 해제(Label Disentanglement)'라는 두 가지 운영 기준을 제안합니다. 제안된 LLM 보조 특징 발견(LFD) 방법론은 개념적 명확성을 확보하면서도 특징이 단순히 타겟 레이블을 재진술하는 문제를 방지하여, 기존 방식보다 더 신뢰할 수 있고 감사 가능한 텍스트 분류 특징을 생성합니다.

핵심 포인트

  • 해석 가능한 텍스트 표현을 위한 새로운 기준인 개념적 명확성(합의 기반)과 레이블 얽힘 해제를 정의함
  • LLM 보조 특징 발견(LFD) 방법론을 통해 대조적 텍스트 쌍으로부터 어휘적/의미적 특징을 추출함
  • 교차 LLM Cohen's $\kappa$를 사용하여 특징의 신뢰성을 검증하고 잔차 예측 이득으로 특징을 선택함
  • LFD는 기존 텍스트 병목 베이스라인과 유사한 성능을 유지하면서도 인간 및 LLM과의 합의도가 더 높고 레이블 누출이 적음

해석 가능한 텍스트 표현(Interpretable text representations)은 예측 가능할 뿐만 아니라, 독립적인 감사자(auditors)가 적용할 수 있을 만큼 충분히 의미 있는 좌표를 노출해야 합니다. 기존의 판별적 표현(discriminative representations)은 종종 익명의 임베딩 방향(embedding directions)을 사용하는 반면, 개념 병목(concept-bottleneck) 및 LLM 보조 방식은 해당 정의가 재현 가능하거나 타겟 레이블(target label)과 구별된다는 보장 없이 특징(features)에 자연어 이름을 부여합니다. 우리는 해석 가능한 판별적 텍스트 표현을 위한 운영 기준을 제안합니다: 각 좌표는 특징 정의를 적용하는 독립적인 주석가(annotators) 간의 우연성을 조정한 합의(chance-adjusted agreement)로 측정되는 개념적 명확성(conceptual clarity)과, 특징이 단순히 예측 대상(prediction target)을 바꾸어 말하는 것에 그치지 않아야 한다는 레이블 얽힘 해제(label disentanglement)를 충족해야 합니다. 우리는 이 기준을 LLM 보조 특징 발견(LLM-assisted Feature Discovery, LFD)에서 구체화합니다. LFD는 대조적인 결과-반대 텍스트 쌍(contrastive outcome-opposed text pairs)으로부터 어휘적 및 의미적 특징을 제안하고, 교차 LLM Cohen's $\kappa$를 사용하여 후보를 선별하며, 잔차 홀드아웃 예측 이득(residual held-out predictive gain)에 의해 특징을 선택하는 반복적인 방법입니다. 정형화된 분석을 통해 $\kappa$ 선별 과정을 특징별 주석 노이즈 상한(per-feature annotation-noise bound)과 연결하여, 합의를 신뢰성 검사로 공식화합니다. 7개의 코퍼스(corpora)에 걸친 10개의 텍스트 분류 작업에서, LFD는 강력한 텍스트 병목(text bottleneck) 베이스라인의 예측 성능과 일치하면서도 실질적으로 더 명확하고 레이블 얽힘이 적은 특징을 생성합니다. 232명의 평가자를 대상으로 한 인간 감사(Human audits) 결과, LFD 특징은 베이스라인 개념보다 더 높은 인간-인간(human--human) 및 인간-LLM(human--LLM) 합의를 달성했으며, 평가자들은 이 특징들이 레이블 누출(label-leaking)이 적다고 일관되게 판단했습니다. 이러한 결과는 합의 테스트를 거치고 레이블 얽힘이 해제된 좌표가 해석 가능한 텍스트 분류를 위한 실질적인 감사 가능성 표준을 제공함을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0