arXiv논문2026. 05. 28. 13:21

안정적인 신호로서의 인간 라벨 변동성: 교차 주석가 선호 최적화를 통한 주석가별 설명 행동 학습

요약

본 연구는 인간 주석가의 라벨 변동성(HLV)과 그 뒤에 숨겨진 추론 패턴을 LLM이 학습할 수 있는지 탐구합니다. 제안된 CAPO 방법론은 단순 라벨을 넘어 주석가별 고유한 설명 행동을 효과적으로 재현하며, 확장 가능한 설명 기반 주석의 가능성을 제시합니다.

핵심 포인트

인간 주석가의 라벨 변동성(HLV)을 안정적인 신호로 정의
LLM을 활용한 주석가별 라벨-설명 행동 학습 가능성 확인
교차 주석가 선호 최적화(CAPO) 방법론 제안
SFT 대비 CAPO가 대상 특이적 추론 패턴 보존에 우수함

자유 형식 텍스트 설명(Free-text explanations)은 주석가(annotator)의 결정 뒤에 숨겨진 추론과 선호도를 드러냄으로써, 라벨 불일치를 넘어 인간 라벨 변동성(Human Label Variation, HLV)을 확장합니다. 본 연구에서는 대규모 언어 모델(Large Language Models, LLMs)이 이러한 주석가별 라벨-설명 행동을 학습하고 재현할 수 있는지 연구합니다. 각각 4명의 주석가가 참여한 두 가지 문장 쌍 작업인 자연어 추론(Natural Language Inference, NLI)과 패러프레이즈 판단(Paraphrase Judgment)을 사용하여, 먼저 주석가들이 안정적인 개별 패턴을 보이는지 분석합니다. 분석 결과, 강력한 입력 콘텐츠 효과(input-content effects)로 인해 단일 주석 수준에서는 이러한 패턴이 약하게 나타나지만, 입력 콘텐츠 감소(input-content reduction) 및 주석가 수준의 집계(aggregation)를 거친 후에는 감지 가능한 수준이 됨을 확인했습니다. 이후 프롬프팅(Prompting) 및 지도 미세 조정(Supervised Fine-Tuning, SFT) 베이스라인을 비교하고, 동일한 입력에 대해 대상 주석가의 응답을 다른 유효하지만 대상 특이성이 낮은 주석들과 대조하는 교차 주석가 선호 최적화(Cross-Annotator Preference Optimization, CAPO)를 제안합니다. 실험 결과, 프롬프팅은 제한적이고 불안정하며, SFT는 주석가별 행동을 더 잘 포착하는 반면, CAPO는 인간 검증 하에서 대상 특이적 추론 패턴을 보존하면서 집계 인식 모방(aggregation-aware imitation) 및 판사 기반 귀속(judge-based attribution)을 더욱 향상시키는 것으로 나타났습니다. 종합적으로, 우리의 결과는 HLV가 주석가별 라벨-설명 행동으로서 학습될 수 있음을 보여주며, 이는 단순한 라벨을 넘어 주석가의 이력에 기반한 확장 가능한 설명 기반 주석(explanation-based annotation)을 향한 경로를 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

안정적인 신호로서의 인간 라벨 변동성: 교차 주석가 선호 최적화를 통한 주석가별 설명 행동 학습

요약

핵심 포인트

댓글