안정적인 신호로서의 인간 라벨 변동성: 교차 주석가 선호 최적화를 통한 주석가별 설명 행동 학습
요약
본 연구는 인간 주석가의 라벨 변동성(HLV)과 그 뒤에 숨겨진 추론 패턴을 LLM이 학습할 수 있는지 탐구합니다. 제안된 CAPO 방법론은 단순 라벨을 넘어 주석가별 고유한 설명 행동을 효과적으로 재현하며, 확장 가능한 설명 기반 주석의 가능성을 제시합니다.
핵심 포인트
- 인간 주석가의 라벨 변동성(HLV)을 안정적인 신호로 정의
- LLM을 활용한 주석가별 라벨-설명 행동 학습 가능성 확인
- 교차 주석가 선호 최적화(CAPO) 방법론 제안
- SFT 대비 CAPO가 대상 특이적 추론 패턴 보존에 우수함
자유 형식 텍스트 설명(Free-text explanations)은 주석가(annotator)의 결정 뒤에 숨겨진 추론과 선호도를 드러냄으로써, 라벨 불일치를 넘어 인간 라벨 변동성(Human Label Variation, HLV)을 확장합니다. 본 연구에서는 대규모 언어 모델(Large Language Models, LLMs)이 이러한 주석가별 라벨-설명 행동을 학습하고 재현할 수 있는지 연구합니다. 각각 4명의 주석가가 참여한 두 가지 문장 쌍 작업인 자연어 추론(Natural Language Inference, NLI)과 패러프레이즈 판단(Paraphrase Judgment)을 사용하여, 먼저 주석가들이 안정적인 개별 패턴을 보이는지 분석합니다. 분석 결과, 강력한 입력 콘텐츠 효과(input-content effects)로 인해 단일 주석 수준에서는 이러한 패턴이 약하게 나타나지만, 입력 콘텐츠 감소(input-content reduction) 및 주석가 수준의 집계(aggregation)를 거친 후에는 감지 가능한 수준이 됨을 확인했습니다. 이후 프롬프팅(Prompting) 및 지도 미세 조정(Supervised Fine-Tuning, SFT) 베이스라인을 비교하고, 동일한 입력에 대해 대상 주석가의 응답을 다른 유효하지만 대상 특이성이 낮은 주석들과 대조하는 교차 주석가 선호 최적화(Cross-Annotator Preference Optimization, CAPO)를 제안합니다. 실험 결과, 프롬프팅은 제한적이고 불안정하며, SFT는 주석가별 행동을 더 잘 포착하는 반면, CAPO는 인간 검증 하에서 대상 특이적 추론 패턴을 보존하면서 집계 인식 모방(aggregation-aware imitation) 및 판사 기반 귀속(judge-based attribution)을 더욱 향상시키는 것으로 나타났습니다. 종합적으로, 우리의 결과는 HLV가 주석가별 라벨-설명 행동으로서 학습될 수 있음을 보여주며, 이는 단순한 라벨을 넘어 주석가의 이력에 기반한 확장 가능한 설명 기반 주석(explanation-based annotation)을 향한 경로를 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기