arXiv논문2026. 06. 23. 14:33

여러 평가자 중 하나로서의 모델: 언어 모델 패널을 통한 데이터 희소 지역의 정치적 입장 측정

요약

LLM을 단일 평가자가 아닌 패널 시스템의 구성원으로 활용하여 데이터 희소 지역의 정치적 입장을 측정하는 새로운 방법론을 제안합니다. 여러 모델의 결과를 결합(pooling)함으로써 측정의 신뢰도를 높이고, 모델 간 불일치를 통해 해석의 문제를 식별하는 방식을 다룹니다.

핵심 포인트

LLM을 패널 내의 단일 평가자로 취급하여 결과의 신뢰도 확보
축 정의 추가 시 평가자 간 일치도 및 점수 정확도 향상
Krippendorff's alpha 0.86 기록으로 높은 재현성 증명
모델 간 의견 불일치를 통해 데이터의 해석적 문제 식별 가능

정치적 입장을 측정하기 위한 대부분의 도구들, 즉 매니페스토 코딩 (manifesto coding), 전문가 설문 (expert surveys), 텍스트 스케일링 모델 (text-scaling models) 등은 서구의 정당 체제를 기반으로 구축되고 검증되었으며, 그 외의 환경에서는 제대로 작동하지 않거나 아예 작동하지 않는 경우가 많습니다. 본 논문은 그러한 환경을 위한 방법론을 시도합니다. 이 방법론은 거대 언어 모델 (Large Language Model, LLM)을 단순한 측정 장치가 아니라, 패널 내의 단일하고 오류가 있을 수 있는 평가자 (rater)로 취급합니다. 이는 전문가 설문이 한 명의 전문가를 다루는 방식과 대략 유사합니다. 즉, 어느 한 명을 신뢰하기보다는 여러 심사위원을 결합(pooling)하는 데서 가치가 발생합니다. 본 논문에서는 패널, 0점이라는 점수를 공백(blank)과 구분하여 유지하는 적용 규칙, 그리고 행위자가 말하는 것과 행하는 것을 분리하는 렌즈 시스템을 설명합니다. 저는 세 가지 결과를 보고합니다. 첫째, 정의가 없는 라운드 (definition-free round)를 고정했을 때, 서술된 축 정의 (axis definitions)를 추가하면 21점 척도에서 평균 1.8점의 점수 변화가 발생하며 평가자 간의 일치도가 높아집니다 (평균 절대 격차(mean absolute gap) 2.81에서 2.50으로, r 값 0.81에서 0.89로). 이는 임의적인 유도(steer)로는 불가능한, 두 독립적인 평가자가 더 밀접하게 일치하도록 만듭니다. 둘째, 두 국가의 8개 연구소에서 나온 9개의 모델을 대상으로 했을 때, 크립펜도르 알파 (Krippendorff's alpha)는 간격 척도 (interval metric)와 순서 척도 (ordinal metric) 모두에서 0.86을 기록했으며, 패널이 5명의 평가자에서 9명으로 늘어나도 이 수치는 유지되었습니다. 이는 타당도 (validity, 정확성)가 아니라 신뢰도 (reliability, 해석의 재현성)를 의미합니다. 셋째, 패널 간에 의견이 불일치하는 경우, 그 불일치는 유익한 정보를 제공합니다. 가장 극명한 차이인 국가의 기초 질서에 대한 행위자의 입장에 대한 전면적인 발산은 참조 대상 문제 (referent problem)를 가리키며, 맹검 삼중 코딩 (blind triple-coding)을 통해 그중 약 3분의 2가 오류가 아닌 해석의 문제임을 확인했습니다. 저는 이 방법론이 여전히 결여하고 있는 인간에 의한 검증 (human validation)을 포함하여, 이 방법론이 할 수 없는 것에 대해 솔직하게 밝히며, 도구와 데이터를 모두 공개합니다. 적용 사례는 중동 및 북아프리카 (Middle East and North Africa)이지만, 이 방법론이 기존의 표준 도구들이 배제하는 어떤 지역에도 적용될 수 있을 것으로 기대합니다.

AI 자동 생성 콘텐츠

원문 바로가기

여러 평가자 중 하나로서의 모델: 언어 모델 패널을 통한 데이터 희소 지역의 정치적 입장 측정

요약

핵심 포인트

댓글