arXiv논문2026. 06. 17. 11:14

비교 그래프 기반의 신뢰할 수 있는 LLM 평가를 위한 프롬프트 섭동 (Prompt Perturbation)

요약

LLM의 쌍체 평가(pairwise evaluation) 과정에서 발생하는 비이행성 및 순환적 선호도 문제를 해결하기 위한 프롬프트 섭동 프레임워크를 제안합니다. 비교 그래프를 활용해 구조적으로 일관되지 않은 패턴을 식별하고 필터링하여 리더보드의 신뢰성을 높입니다.

핵심 포인트

LLM 쌍체 평가 시 발생하는 비이행성 및 순환적 선호도 문제 해결
프롬프트 섭동을 통해 다양한 변형을 생성하고 비교 그래프 구축
그래프 수준의 구조적 일관성을 평가 파이프라인에 통합
불일치하는 비교 데이터를 필터링하여 리더보드 순위의 안정성 확보

대규모 언어 모델 (LLMs)을 평가하는 것은 모델의 능력을 이해하고, 경쟁 시스템을 비교하며, 실제 환경에서 신뢰할 수 있는 모델의 배포를 지원하는 데 매우 중요합니다. 개방형 작업 (open-ended tasks)의 경우, 동일한 프롬프트에 대한 두 개의 응답을 비교하고 그 결과로 나온 판단을 종합하여 전체 순위를 매기는 쌍체 평가 (pairwise evaluation)가 대중적인 패러다임이 되었습니다. 이 패러다임의 핵심 과제는 비이행성 (intransitivity)입니다. 즉, 유도된 비교 결과가 일관된 전역 순위 (global ranking)를 지원하지 못할 수 있습니다. 예를 들어, $A \succ B \succ C \succ A$와 같은 순환적 선호도 (cyclic preferences)를 관찰하거나, $A \equiv B \equiv C \neq A$와 같이 동률 (ties)을 포함하는 불일치를 발견할 수 있습니다. 이러한 모순은 결과적으로 생성된 리더보드 (leaderboard)를 불안정하게 만들고 해석하기 어렵게 만듭니다. 본 논문에서는 쌍체 LLM 평가의 일관성을 향상시키기 위한 프롬프트 섭동 (prompt perturbation) 프레임워크를 제안합니다. 우리의 접근 방식은 각 프롬프트의 섭동된 변형 (perturbed variants)을 생성하고, 결과로 나온 비교 그래프 (comparison graphs)를 사용하여 구조적으로 일관되지 않은 비교 패턴을 식별 및 필터링한 다음, 필터링된 비교에 표준 순위 산정 방법을 적용합니다. 제안된 프레임워크의 핵심 특징은 순위 집계 (ranking aggregation) 전에 그래프 수준의 구조적 일관성 (graph-level structural consistency)을 평가 파이프라인에 명시적으로 통합한다는 점입니다. 이는 순환적 불일치를 줄이고 LLM 순위의 신뢰성을 높이는 단순하고 원칙적인 방법을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

비교 그래프 기반의 신뢰할 수 있는 LLM 평가를 위한 프롬프트 섭동 (Prompt Perturbation)

요약

핵심 포인트

댓글