arXiv논문2026. 06. 24. 11:44

대규모 언어 모델(LLM) 평가에서 프롬프트 순위 안정성에 관한 연구

요약

LLM 평가 시 프롬프트 순위가 평가 조건 변화에 따라 불안정할 수 있음을 연구했습니다. 성능과 분산을 동시에 고려하는 안정성 인지 선택 전략을 제안하여 프롬프트 선택의 견고성을 높였습니다.

핵심 포인트

프롬프트 순위는 무작위 시드나 데이터셋 변화에 따라 불안정할 수 있음
최고 성능 프롬프트가 평가 조건에 따라 빈번하게 변경됨을 확인
성능과 분산을 모두 고려한 하한 신뢰 구간 기반 선택 전략 제안
제안된 전략이 불안정한 환경에서 프롬프트 선택의 견고성을 향상시킴

프롬프트 기반 상호작용(Prompt-based interaction)은 대규모 언어 모델(LLMs)을 사용하는 지배적인 패러다임이 되었으며, 여기서는 여러 후보 프롬프트를 평가하고 가장 높은 순위를 차지한 것을 후속 작업(downstream use)을 위해 선택합니다. 이러한 워크플로우는 평가 조건의 미세한 변화 하에서도 프롬프트 순위가 안정적이라는 점을 암묵적으로 가정합니다. 본 논문에서는 무작위 시드(random seeds) 및 제한된 평가 서브셋(evaluation subsets)을 포함하여, 일반적인 변동성 요인 하에서의 프롬프트 순위 안정성을 체계적으로 연구합니다. 세 가지 오픈 웨이트(open-weight) LLM과 두 가지 벤치마크 태스크를 통해 조사한 결과, 전반적인 순위 상관관계(rank correlations)는 종종 중간에서 높은 수준을 보이지만, 최고 성능을 보이는 프롬프트의 정체는 빈번하게 바뀌어 신뢰할 수 없는 선택 결정으로 이어진다는 것을 발견했습니다. 이 문제를 해결하기 위해, 우리는 성능과 분산(variance)을 모두 고려하는 하한 신뢰 구간(lower confidence bound)에 기반한 간단한 안정성 인지 선택 전략(stability-aware selection strategy)을 제안합니다. 우리의 결과는 이 접근 방식이 더 안정적인 환경에서도 경쟁력을 유지하면서, 불안정한 환경에서는 견고성(robustness)을 향상시킨다는 것을 보여줍니다. 이러한 발견은 프롬프트 선택 및 LLM 벤치마킹에서 평가 불확실성(evaluation uncertainty)을 고려하는 것이 중요하다는 점을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델(LLM) 평가에서 프롬프트 순위 안정성에 관한 연구

요약

핵심 포인트

댓글