arXiv논문2026. 06. 30. 13:09

LLM이 순위를 매길 수 있는가? 삼항 관계(Triads)와 분류(Triage)에 관한 이야기

요약

LLM을 활용한 자원 배분 및 우선순위 결정 시 판단의 일관성을 측정하는 방법론을 다룹니다. 토너먼트 그래프의 순환 삼항 관계를 이용한 내적 일관성과 Kendall의 τ를 이용한 외적 변동성 측정을 통해 LLM 심판의 신뢰도를 평가하는 가이드라인을 제시합니다.

핵심 포인트

LLM의 순위 결정 신뢰도를 평가하기 위한 두 가지 핵심 지표 제시
일관성 계수 ζ를 통한 모델 프리(model-free) 내적 일관성 측정
Kendall의 τ를 활용한 실행 간 변동성(inter-run variability) 측정
노숙인 서비스 및 응급실 분류 등 고위험 작업에서의 실질적 유효성 입증
주요 LLM 모델별로 일관성 성능 프로필이 상이함을 확인

노숙 가구를 위한 주거 배분부터 응급실의 분류(triage)에 이르기까지, LLM(Large Language Models)은 희소한 자원을 위해 사람들의 순위를 매겨야 하는 중대한 결정의 심판으로서 점점 더 많이 고려되고 있습니다. 대규모 그룹을 동시에 순위 매기는 것은 인지적으로 부담이 크며 오류가 발생하기 쉽습니다. 수십 년간의 사회 선택 이론 (social choice theory)에 기반한 자연스러운 해결책은 쌍체 비교 (pairwise comparisons)를 유도하고 이를 전체 순서 (total order)로 집계하는 것입니다. 그러나 LLM이 쌍체 심판 역할을 할 때 근본적인 질문이 남습니다. 실무자가 순위를 확정하기 전에, LLM의 판단이 결과를 신뢰할 수 있을 만큼 충분히 일관적인지 어떻게 알 수 있을까요? 우리는 일관성을 식별하는 두 가지 서로 다른 방법을 논의합니다. 토너먼트 그래프 (tournament graphs)에서 순환 삼항 관계 (circular triads)를 계산하여 심판의 신뢰도를 측정하기 위해 원래 개발된 고전적인 진단 도구인 일관성 계수 $ζ$는, 모델이 필요 없는 (model-free) 저렴한 실행 내 일관성 (intra-run consistency) 측정치를 제공합니다. 예를 들어 Kendall의 $τ$와 같은 다양한 표준 순위 간 거리 측정치는 실행 간 변동성 (inter-run variability)을 측정할 수 있습니다. 우리는 이론과 실무 모두에서 이러한 측정치들이 독립적으로 가치가 있음을 보여주며, 순위의 신뢰성을 평가하기 위해 두 가지를 모두 사용할 것을 권장합니다. 우리는 두 가지 고위험 우선순위 지정 작업인 노숙인 서비스 배분과 응급실 분류 (triage) 전반에 걸쳐 우리 연구 결과의 실질적인 중요성을 입증합니다. 세 가지 서로 다른 주요 LLM은 이러한 일관성의 두 축에 대해 상당히 다른 성능 프로필을 보입니다. 우리는 실무자들이 순위 지정 또는 우선순위 결정을 위해 모델을 채택하기 전에 일관성을 측정하고 평가하는 방법에 대한 가이드라인을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM이 순위를 매길 수 있는가? 삼항 관계(Triads)와 분류(Triage)에 관한 이야기

요약

핵심 포인트

댓글