하나의 프롬프트로는 충분하지 않다: 지시문 민감도가 임베딩 모델 평가를 저해함

지시문 임베딩 모델 (Instruction embedding models)은 최첨단 모델들 사이에서 흔해졌으나, 각 태스크당 단 하나의 프롬프트만을 사용하여 평가되고 있습니다. 이러한 단일 지점 평가 (single-point evaluation)는 지시문 기반 접근 방식의 주요 문제인 지시문 문구 (phrasing)에 대한 민감도를 간과합니다. 본 연구에서는 6개의 임베딩 모델, 11개의 데이터셋, 그리고 데이터셋당 15개의 태스크별 프롬프트를 포함하여 총 990개의 프롬프트에 걸친 프롬프트 민감도 (prompt sensitivity)에 대한 실증적 연구를 제시합니다. 우리는 보고된 점수들이 타당한 프롬프트들에 따른 점수 분포를 잘못 나타내고 있음을 보여줍니다. 기본 프롬프트는 성능을 체계적으로 과소평가하거나 과대평가할 수 있습니다. 나아가, 우리는 리더보드 순위가 프롬프트 선택에 대해 견고하지 (robust) 않음을 보여줍니다. 프롬프트를 유리하게 선택함으로써, 본 연구에 포함된 어떤 모델이라도 1위로 올라설 수 있습니다. 우리의 연구 결과는 단일 프롬프트 평가가 지시문 튜닝된 (instruction-tuned) 임베딩 모델에 불충분하며, 벤치마크는 여러 프롬프트에 대해 평가하거나 점수 추정치와 함께 민감도를 보고함으로써 프롬프트 견고성 (prompt robustness)을 포함해야 함을 시사합니다.

Insights

하나의 프롬프트로는 충분하지 않다: 지시문 민감도가 임베딩 모델 평가를 저해함

요약

핵심 포인트

댓글

중국이 답이었다 — 테슬라 6월 판매 8만9091대 올해 최고, 모델Y 현지 1위 | 7/8 테슬라 브리핑

짐 크레이머, 강세장 재도래의 큰 위험은 이란 전쟁이 아니다

AI 비디오에 대한 일반적인 인식과 Reactor의 더 큰 방향성

HF Viewer에 수많은 새로운 기능이 추가되었습니다!

짐 크레이머, 강세장 재도래의 큰 위험은 이란 전쟁이 아니다

AI 비디오에 대한 일반적인 인식과 Reactor의 더 큰 방향성

HF Viewer에 수많은 새로운 기능이 추가되었습니다!