본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 15:45

하나의 프롬프트로는 충분하지 않다: 지시문 민감도가 임베딩 모델 평가를 저해함

요약

지시문 임베딩 모델 평가 시 단일 프롬프트만을 사용하는 방식의 한계를 지적합니다. 연구 결과, 프롬프트 문구에 따른 성능 편차가 커서 기존 리더보드 순위가 신뢰하기 어렵다는 점을 밝혀냈습니다.

핵심 포인트

  • 단일 프롬프트 평가는 모델 성능을 과대 또는 과소평가할 위험이 있음
  • 프롬프트 선택에 따라 모델의 리더보드 순위가 크게 변동될 수 있음
  • 임베딩 모델 벤치마크 시 프롬프트 견고성(robustness) 평가가 필수적임
  • 다양한 프롬프트에 대한 점수 분포와 민감도 보고가 권장됨

지시문 임베딩 모델 (Instruction embedding models)은 최첨단 모델들 사이에서 흔해졌으나, 각 태스크당 단 하나의 프롬프트만을 사용하여 평가되고 있습니다. 이러한 단일 지점 평가 (single-point evaluation)는 지시문 기반 접근 방식의 주요 문제인 지시문 문구 (phrasing)에 대한 민감도를 간과합니다. 본 연구에서는 6개의 임베딩 모델, 11개의 데이터셋, 그리고 데이터셋당 15개의 태스크별 프롬프트를 포함하여 총 990개의 프롬프트에 걸친 프롬프트 민감도 (prompt sensitivity)에 대한 실증적 연구를 제시합니다. 우리는 보고된 점수들이 타당한 프롬프트들에 따른 점수 분포를 잘못 나타내고 있음을 보여줍니다. 기본 프롬프트는 성능을 체계적으로 과소평가하거나 과대평가할 수 있습니다. 나아가, 우리는 리더보드 순위가 프롬프트 선택에 대해 견고하지 (robust) 않음을 보여줍니다. 프롬프트를 유리하게 선택함으로써, 본 연구에 포함된 어떤 모델이라도 1위로 올라설 수 있습니다. 우리의 연구 결과는 단일 프롬프트 평가가 지시문 튜닝된 (instruction-tuned) 임베딩 모델에 불충분하며, 벤치마크는 여러 프롬프트에 대해 평가하거나 점수 추정치와 함께 민감도를 보고함으로써 프롬프트 견고성 (prompt robustness)을 포함해야 함을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0