WhoSaidIt: 텍스트 기반 다국어 화자 속성 분류를 위한 인간-LLM 협업 주석 작업
요약
다국어 환경에서 텍스트 기반 화자 속성을 정확히 분류하기 위한 인간-LLM 협업 재주석 프레임워크를 제안합니다. 불일치 중심 샘플링과 근거 도출 방식을 통해 WhoSaidIt 데이터셋을 구축하고 LLM의 성능을 분석했습니다.
핵심 포인트
- 인간과 LLM의 협업을 통한 다국어 화자 속성 주석 프레임워크 제안
- 불일치 중심 샘플링을 활용한 효율적인 데이터 재주석 프로세스
- 9개의 화자 속성 레이블을 포함하는 WhoSaidIt 데이터셋 구축
- 주석 결정 과정에서의 교차 언어적 차이 및 LLM의 한계 규명
텍스트에서 화자의 속성 (speaker attributes)을 주석 (annotating) 처리하는 것은 본질적으로 모호하며, 특히 인구통계학적 및 사회적 단서가 암시적이고 문화적으로 가변적인 다국어 (multilingual) 환경에서는 더욱 그러합니다. 본 연구에서는 실제적인 자원 제약 하에서 다국어 화자 속성 레이블 (speaker-attribute labels)을 안정화하기 위한 인간-대규모 언어 모델 (human-large language model (LLM)) 협업 재주석 (re-annotation) 프레임워크를 제안합니다. 노이즈가 있는 코퍼스 (noisy corpus)에서 시작하여, 우리는 전문가와의 반복적인 상호작용을 통해 LLM을 사용하여 반복되는 주석 근거 (annotation rationales)를 도출하고, 표적 재주석을 위해 불일치 중심 샘플링 (disagreement-focused sampling)을 적용합니다. 이 프레임워크를 사용하여 우리는 9개의 화자 속성 레이블을 다루는 다국어 데이터셋인 WhoSaidIt을 구축합니다. 우리는 기존 주석과 수정된 주석 사이의 차이 (divergence)를 정량화하고, 최신 LLM들을 벤치마크하며, 명시적인 근거 (explicit rationales)가 모델 동작에 미치는 영향을 분석합니다. 연구 결과, 주석 결정 과정에서 상당한 교차 언어적 (cross-lingual) 차이가 있음을 발견하였으며, 화자 속성 분류에서 LLM의 강점과 한계를 모두 입증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기