비교 그래프 기반의 신뢰할 수 있는 LLM 평가를 위한 프롬프트 섭동 (Prompt Perturbation)
요약
LLM의 쌍체 평가(pairwise evaluation) 과정에서 발생하는 비이행성 및 순환적 선호도 문제를 해결하기 위한 프롬프트 섭동 프레임워크를 제안합니다. 비교 그래프를 활용해 구조적으로 일관되지 않은 패턴을 식별하고 필터링하여 리더보드의 신뢰성을 높입니다.
핵심 포인트
- LLM 쌍체 평가 시 발생하는 비이행성 및 순환적 선호도 문제 해결
- 프롬프트 섭동을 통해 다양한 변형을 생성하고 비교 그래프 구축
- 그래프 수준의 구조적 일관성을 평가 파이프라인에 통합
- 불일치하는 비교 데이터를 필터링하여 리더보드 순위의 안정성 확보
대규모 언어 모델 (LLMs)을 평가하는 것은 모델의 능력을 이해하고, 경쟁 시스템을 비교하며, 실제 환경에서 신뢰할 수 있는 모델의 배포를 지원하는 데 매우 중요합니다. 개방형 작업 (open-ended tasks)의 경우, 동일한 프롬프트에 대한 두 개의 응답을 비교하고 그 결과로 나온 판단을 종합하여 전체 순위를 매기는 쌍체 평가 (pairwise evaluation)가 대중적인 패러다임이 되었습니다. 이 패러다임의 핵심 과제는 비이행성 (intransitivity)입니다. 즉, 유도된 비교 결과가 일관된 전역 순위 (global ranking)를 지원하지 못할 수 있습니다. 예를 들어, $A \succ B \succ C \succ A$와 같은 순환적 선호도 (cyclic preferences)를 관찰하거나, $A \equiv B \equiv C \neq A$와 같이 동률 (ties)을 포함하는 불일치를 발견할 수 있습니다. 이러한 모순은 결과적으로 생성된 리더보드 (leaderboard)를 불안정하게 만들고 해석하기 어렵게 만듭니다. 본 논문에서는 쌍체 LLM 평가의 일관성을 향상시키기 위한 프롬프트 섭동 (prompt perturbation) 프레임워크를 제안합니다. 우리의 접근 방식은 각 프롬프트의 섭동된 변형 (perturbed variants)을 생성하고, 결과로 나온 비교 그래프 (comparison graphs)를 사용하여 구조적으로 일관되지 않은 비교 패턴을 식별 및 필터링한 다음, 필터링된 비교에 표준 순위 산정 방법을 적용합니다. 제안된 프레임워크의 핵심 특징은 순위 집계 (ranking aggregation) 전에 그래프 수준의 구조적 일관성 (graph-level structural consistency)을 평가 파이프라인에 명시적으로 통합한다는 점입니다. 이는 순환적 불일치를 줄이고 LLM 순위의 신뢰성을 높이는 단순하고 원칙적인 방법을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기