본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 23. 12:24

블랙박스 LLM 분류에서의 점수 세밀도 격차: 신뢰도 구축 방식에 대한 비교 연구

요약

LLM의 블랙박스 분류 시 신뢰도 점수의 해상도를 결정하는 '점수 세밀도 격차'를 분석한 연구입니다. 7가지 신뢰도 구축 방식이 임계값 설정과 순위 매기기에 미치는 영향을 비교하고, 추론 비용과의 트레이드오프를 다룹니다.

핵심 포인트

  • 신뢰도 점수의 해상도가 임계값 설정의 유연성을 결정함
  • 단일 샷 구어적 신뢰도는 순위는 높으나 세밀도가 낮음
  • 다중 질의 집계는 약한 모델에는 유용하나 강한 모델은 저하시킬 수 있음
  • 신뢰도 구축 방식에 따른 추론 비용과 성능 간의 트레이드오프 존재

대규모 언어 모델 (LLMs)은 확신이 있는 결정은 자동화하고 불확실한 결정은 인간의 검토로 전달하는 파이프라인 내에서 블랙박스 분류기 (black-box classifiers)로 점점 더 많이 배치되고 있습니다. 이러한 선택적 예측 (selective prediction)에는 운영자가 선택한 위험 수준에 따라 임계값 (threshold)을 설정할 수 있는 신뢰도 점수 (confidence score)가 필요합니다. 기존 연구들은 LLM의 신뢰도가 잘 보정 (calibrated)되었는지 또는 잘 순위가 매겨졌는지 (well ranked)를 질문해 왔으나, 우리는 그동안 크게 간과되었던 보완적이고 배포 지향적인 질문을 던집니다. 즉, 점수를 어느 정도의 해상도로 임계값 설정할 수 있는가 하는 점입니다. 우리는 이 해답을 점수 세밀도 격차 (score granularity gap)라고 부릅니다. 단일 구어적 숫자 (single verbalized number)부터 토큰 확률 (token probabilities), 그리고 모델에 여러 번 질의하여 답변을 결합하는 방식에 이르기까지, 7가지 신뢰도 점수 구축 방식을 25개의 모델-데이터셋 쌍 (9개의 LLMs, 3개의 벤치마크)을 통해 통제된 비교를 수행한 결과, 단일 샷 구어적 신뢰도 (single-shot verbalized confidence)는 클래스 확률 (class probability)로 올바르게 변환될 경우 사례들의 순위를 놀라울 정도로 잘 매기지만, 단지 소수의 별개 값만을 가진다는 것을 발견했습니다. 따라서 이는 순위를 아무리 잘 매기더라도 운영자에게 단지 몇 개의 거친 임계값 (coarse thresholds)만을 제공할 뿐입니다. 우리는 어떤 구축 방식이 이 격차를 넓히는지, 어떤 추론 비용 (inference cost)이 발생하는지, 그리고 순위 매기기에 어떤 영향을 미치는지 보여줍니다. 특히 다중 질의 집계 (multi-query aggregation)는 약한 모델에는 도움이 되지만 이미 강력한 모델의 성능은 저하시킬 수 있음을 밝힙니다. 우리는 이러한 트레이드오프 (trade-offs)를 구체적인 배포 가이드라인으로 변환합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0