덴마크 망명 결정의 신뢰성 평가를 위한 주석가로서의 LLMs: 분류 성능 및 집계 지표를 넘어선 오류 평가
요약
본 연구는 법률 NLP 태스크인 망명 결정 텍스트 내 신뢰성 평가 및 감정 식별을 위한 LLM 기반 주석 작업을 조사합니다. 특히, 고품질의 전문가 주석과 메타데이터를 갖춘 덴마크어 데이터셋 RAB-Cred를 소개하고, 다양한 open-weight 모델과 프롬프트 조합을 사용하여 zero-shot 및 few-shot 분류 성능을 체계적으로 평가했습니다. 연구는 단순히 분류 성능 지표를 넘어 LLM이 범하는 오류의 일관성, 클래스 혼동 패턴, 그리고 인간 신뢰도와의 상관관계 등 심층적인 오류 분석에 초점을 맞추어, LLMs 활용의 잠재력과 한계를 동시에 제시합니다.
핵심 포인트
- LLMs는 소수 언어 및 전문 분야 법률 NLP 태스크(예: 망명 결정 텍스트) 자동화에 활용될 수 있는 높은 잠재력을 보여줍니다.
- 연구에서는 RAB-Cred라는 고품질의 덴마크어 데이터셋을 구축하여 신뢰성 평가 및 감정 식별 태스크를 수행했습니다.
- 단순한 분류 성능(Accuracy 등) 측정 대신, LLM이 범하는 오류 패턴과 일관성을 정밀하게 분석하는 것이 중요함을 강조합니다.
- LLMs 주석가의 예측은 불완전하고 일관되지 않으므로, 단일 모델의 결과에만 의존해서는 안 됩니다.
기성 Large Language Models (LLMs)는 텍스트 주석 (annotation) 자동화를 위해 점점 더 많이 사용되고 있지만, 클래스 정의에 미묘한 전문가적 이해가 필요한 소수 언어 및 전문 분야에서의 효과는 여전히 충분히 탐구되지 않은 상태입니다. 본 연구에서는 새로운 법률 NLP 태스크인 망명 결정 텍스트 내 신뢰성 평가 (credibility assessments)의 존재 여부 및 감정 (sentiment) 식별을 위한 LLM 기반 주석 작업을 조사합니다. 우리는 고품질의 전문가 주석과 주석가 신뢰도(annotator confidence) 및 망명 사건 결과와 같은 가치 있는 메타데이터를 특징으로 하는 덴마크어 텍스트 분류 데이터셋인 RAB-Cred를 소개합니다. 우리는 이 태스크를 위해 21개의 open-weight 모델과 30개의 시스템-사용자 프롬프트 (system-user prompt) 조합을 벤치마킹하며, zero-shot 및 few-shot 분류에 대한 모델 및 프롬프트 선택의 효과를 체계적으로 평가합니다. 우리는 성능이 가장 뛰어난 모델과 프롬프트가 범하는 오류를 정밀 조사하여, LLMs 간의 오류 일관성, 클래스 간 혼동 (inter-class confusion), 인간의 신뢰도와의 상관관계, 그리고 샘플별 난이도 및 LLM 실수의 심각성을 조사합니다. 우리의 결과는 망명 결정의 비용 효율적인 레이블링 (labeling)을 위한 LLMs의 잠재력을 확인시켜 주지만, LLM 주석가의 불완전하고 일관되지 않은 특성과 임의로 선택된 단일 모델의 예측을 넘어 살펴볼 필요성을 강조합니다. RAB-Cred 데이터셋과 코드는 https://github.com/glhr/RAB-Cred 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기