본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 10:57

GRASP: 상호작용 그래프에서의 결정론적 논거 순위 지정

요약

LLM-as-a-Judge 방식의 기존 총체적 판단(holistic judging)이 가진 불일치와 불안정성 문제를 해결하기 위해 새로운 프레임워크인 GRASP를 제안합니다. GRASP는 상호작용 그래프 내에서 국소적 판단을 전역적 순위로 집계하는 결정론적 방식을 사용하여, 논거의 수사적 호소력이 아닌 구조적 견고성을 측정합니다.

핵심 포인트

  • 기존의 총체적 판단 방식은 복잡한 토론 구조를 단일 점수로 붕괴시켜 모델 간 불일치를 유발함
  • GRASP는 공격-방어 전파 연산자를 통해 국소적 상호작용 판단을 전역적 순위로 변환하는 결정론적 프레임워크임
  • GRASP는 설득력이나 사실성이 아닌, 상호작용 그래프 상의 논거 견고성인 '구조적 충분성'을 측정함
  • 총체적 판단보다 국소적 상호작용 판단이 더 높은 재현성을 가지며, GRASP는 투명하고 감사 가능한 대안을 제공함

대규모 언어 모델 (Large language models)은 논거 (arguments)의 강도를 평가하기 위한 자동화된 판사로서 점점 더 많이 배치되고 있습니다. 이러한 역할이 확장됨에 따라, 모델의 정당성은 일관성, 투명성, 그리고 논증 구조 (argumentative structure)를 수사적 호소력 (rhetorical appeal)으로부터 분리하는 능력에 달려 있습니다. 그러나 우리는 모델이 토론에 대해 전역적인 판결을 내리는 일반적인 LLM-as-a-Judge 관행인 총체적 판단 (holistic judging)이 상당한 모델 간 불일치를 겪는다는 것을 보여줍니다. 우리는 이러한 불안정성이 토론의 복잡한 상호작용 구조 (interaction structure)를 하나의 불투명한 점수로 붕괴시키기 때문에 발생한다고 주장합니다. 이를 해결하기 위해, 우리는 수렴하는 공격-방어 전파 연산자 (attack--defense propagation operator)를 통해 안정적인 국소적 상호작용 판단 (local interaction judgments)을 전역적 순위 (global ranking)로 집계하는 결정론적 프레임워크인 GRASP (Gradual Ranking with Attacks and Support Propagation)를 제안합니다. 우리는 LLM-as-a-Judge 평가에서 국소적 상호작용 판단이 총체적 순위보다 더 재현 가능하다는 것을 보여주며, 이를 통해 GRASP가 더 일관된 전역적 순위를 생성할 수 있음을 입증합니다. 나아가 우리는 GRASP 점수가 인간의 "설득력 (convincingness)" 라벨과 상관관계가 없음을 보여주며, 중요한 사회기술적 (sociotechnical) 차이를 강조합니다. 즉, GRASP는 설득력, 사실성, 또는 수사적 호소력을 측정하는 것이 아니라, 명시적인 상호작용 그래프 (interaction graph) 상에서의 논거 견고성 (argument robustness)에 대한 방어 인지적 개념인 구조적 충분성 (structural sufficiency)을 측정합니다. 종합적으로, GRASP는 총체적인 LLM 판단에 대한 투명하고 감사 가능한 대안을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0