arXiv논문2026. 05. 05. 16:45

작은 LLM 의 제로샷 신뢰도 추정: 감독적 베이스라인이 훈련할 가치가 없는 때

요약

본 논문은 작은 언어 모델(LLM)이 자신의 예측 정확도를 얼마나 신뢰할 수 있는지 측정하는 '제로샷 신뢰도 추정' 방법을 제시합니다. 이는 LLM의 추론 비용을 절감하기 위해 저렴한 로컬 모델로 쿼리를 라우팅하고, 어려운 경우에만 비싼 클라우드 호출을 사용하는 비용 통제 전략에 필수적입니다. 연구진은 평균 토큰 로그 확률(Average token log-probability)이 감독적 베이스라인과 비교하여 우수한 성능을 보였으며, 특히 분포 외 데이터에서 큰 이점을 입증했습니다.

핵심 포인트

LLM의 추론 비용 절감을 위해 저렴한 로컬 모델 라우팅 전략이 중요해지고 있으며, 이를 위한 신뢰도 측정 방법이 필요합니다.
평균 토큰 로그 확률(Average token log-probability)은 감독적 훈련 데이터 없이도 높은 성능을 보여, 기존의 지도 학습 기반 베이스라인보다 우수하거나 동등한 결과를 보였습니다.
제안된 '리트리벌 조건부 자기 평가'는 지식 검색을 결합하여 로그 확률 방식 대비 더 낮은 지연 시간에서 AUROC를 향상시킬 수 있습니다.
감독적 베이스라인은 충분한 양의 라벨링 데이터로 훈련되더라도 제로샷 신호 추정 성능을 능가할 수 없음을 입증했습니다.

작은 언어 모델 (LLM) 이 자신의 정확도를 얼마나 신뢰할 수 있는가? 이 답변이 로컬-클라우드 라우팅 (거기서 처리할 수 없는 저렴한 로컬 모델의 쿼리가 증가하는 경우) 을 감독적 훈련 데이터 없이 작동하게 하는지 결정한다. 추론 비용이 대형 언어 모델 (LLM) 배포 예산을 지배하고 있으므로, 대부분의 쿼리는 저렴한 로컬 모델로 라우팅하고 어려운 경우에만 비싼 클라우드 호출을 예약하는 것이 점점 더 일반적인 비용 통제 전략이다. 우리는 3 개의 7-8B 모델 가족과 2 개의 데이터셋 (각각 1,000 개와 500 개의 쿼리) 을 기준으로 제로샷 신뢰도 신호를 RouteLLM 스타일의 감독적 베이스라인과 비교한다. 훈련 데이터를 필요로 하지 않는 평균 토큰 로그 확률 (Average token log-probability) 은 분포 내 (Area Under the Receiver Operating Characteristic curve (AUROC) 0.650-0.714 vs. 0.644-0.676) 에서 감독적 베이스라인과 일치하거나 초과하며, 분포 외 (out-of-distribution) 에서는 크게 우세하다 (0.717-0.833 vs. 0.512-0.564). 이는 쿼리 분포가 아니라 모델의 생성 속성을 측정하기 때문이다. 본 논문은 또한 유사도가 높을 때 선택적으로 검색된 지식을 주입하는 리트리벌 조건부 자기 평가 (retrieval-conditional self-assessment) 를 제안한다. 이는 로그 확률보다 3-10 배 낮은 지연 시간에서 +0.069 AUROC 까지 향상된다. 감독적 베이스라인은 1,000 개의 라벨링된 예제에 훈련되어도 제로샷 신호를 초과할 수 없다. 우리는 모든 코드, 데이터, 실험 로그를 공개한다.

AI 자동 생성 콘텐츠

원문 바로가기

작은 LLM 의 제로샷 신뢰도 추정: 감독적 베이스라인이 훈련할 가치가 없는 때

요약

핵심 포인트

댓글