arXiv논문2026. 06. 23. 12:24

블랙박스 LLM 분류에서의 점수 세밀도 격차: 신뢰도 구축 방식에 대한 비교 연구

요약

LLM의 블랙박스 분류 시 신뢰도 점수의 해상도를 결정하는 '점수 세밀도 격차'를 분석한 연구입니다. 7가지 신뢰도 구축 방식이 임계값 설정과 순위 매기기에 미치는 영향을 비교하고, 추론 비용과의 트레이드오프를 다룹니다.

핵심 포인트

신뢰도 점수의 해상도가 임계값 설정의 유연성을 결정함
단일 샷 구어적 신뢰도는 순위는 높으나 세밀도가 낮음
다중 질의 집계는 약한 모델에는 유용하나 강한 모델은 저하시킬 수 있음
신뢰도 구축 방식에 따른 추론 비용과 성능 간의 트레이드오프 존재

대규모 언어 모델 (LLMs)은 확신이 있는 결정은 자동화하고 불확실한 결정은 인간의 검토로 전달하는 파이프라인 내에서 블랙박스 분류기 (black-box classifiers)로 점점 더 많이 배치되고 있습니다. 이러한 선택적 예측 (selective prediction)에는 운영자가 선택한 위험 수준에 따라 임계값 (threshold)을 설정할 수 있는 신뢰도 점수 (confidence score)가 필요합니다. 기존 연구들은 LLM의 신뢰도가 잘 보정 (calibrated)되었는지 또는 잘 순위가 매겨졌는지 (well ranked)를 질문해 왔으나, 우리는 그동안 크게 간과되었던 보완적이고 배포 지향적인 질문을 던집니다. 즉, 점수를 어느 정도의 해상도로 임계값 설정할 수 있는가 하는 점입니다. 우리는 이 해답을 점수 세밀도 격차 (score granularity gap)라고 부릅니다. 단일 구어적 숫자 (single verbalized number)부터 토큰 확률 (token probabilities), 그리고 모델에 여러 번 질의하여 답변을 결합하는 방식에 이르기까지, 7가지 신뢰도 점수 구축 방식을 25개의 모델-데이터셋 쌍 (9개의 LLMs, 3개의 벤치마크)을 통해 통제된 비교를 수행한 결과, 단일 샷 구어적 신뢰도 (single-shot verbalized confidence)는 클래스 확률 (class probability)로 올바르게 변환될 경우 사례들의 순위를 놀라울 정도로 잘 매기지만, 단지 소수의 별개 값만을 가진다는 것을 발견했습니다. 따라서 이는 순위를 아무리 잘 매기더라도 운영자에게 단지 몇 개의 거친 임계값 (coarse thresholds)만을 제공할 뿐입니다. 우리는 어떤 구축 방식이 이 격차를 넓히는지, 어떤 추론 비용 (inference cost)이 발생하는지, 그리고 순위 매기기에 어떤 영향을 미치는지 보여줍니다. 특히 다중 질의 집계 (multi-query aggregation)는 약한 모델에는 도움이 되지만 이미 강력한 모델의 성능은 저하시킬 수 있음을 밝힙니다. 우리는 이러한 트레이드오프 (trade-offs)를 구체적인 배포 가이드라인으로 변환합니다.

AI 자동 생성 콘텐츠

원문 바로가기

블랙박스 LLM 분류에서의 점수 세밀도 격차: 신뢰도 구축 방식에 대한 비교 연구

요약

핵심 포인트

댓글