연구 결과: Qwen 2.5 7B는 정답 여부와 상관없이 거의 일정한 확신도를 보임
요약
미네소타 대학교 연구진은 Qwen 2.5 7B 모델이 정답 여부와 관계없이 일정한 확신도를 보이는 '인식론적 미교정' 상태임을 밝혀냈습니다. 모델의 확신도는 실제 예측 품질이 아닌 프롬프트 형식에 의존하며, 특히 정형 데이터 처리 시 고확신 오답을 내놓는 위험성이 확인되었습니다.
핵심 포인트
- Qwen 2.5 7B의 확신도는 정답률과 무관하게 0.856~0.937 사이로 군집화됨
- 모델의 확신 신호는 예측 증거보다 프롬프트의 언어적 패턴을 반영함
- 전통적 ML 모델(XGBoost)이 해결하는 쉬운 사례에서 LLM은 고확신 오답을 낼 수 있음
- 구조화된 정형 데이터에 대한 LLM의 사전 지식 부족이 원인으로 지목됨
2026년 6월 미네소타 대학교(University of Minnesota) 연구진의 arXiv 프리프린트(preprint)에 따르면, 구조화된 임상 예측 데이터에 대해 Qwen 2.5 7B를 테스트한 결과 모델이 구두로 표현하는 확신도(confidence scores)가 본질적으로 정보 가치가 없는 것으로 나타났습니다. 모델의 성능이 좋든 나쁘든 확신도는 0.856에서 0.937 사이로 군집화되었습니다. SHAP을 결합하면-
85%의 확신이 있다고 말하는 대규모 언어 모델(LLM)과 94%의 확신이 있다고 말하는 모델은 매우 다르게 행동해야 합니다. 2026년 6월 arXiv에 발표된 미네소타 대학교 연구진의 프리프린트(preprint)는 구조화된 임상 데이터에 대한 Qwen 2.5 7B의 경우, 이 두 숫자가 기능적으로 동일하며 모델이 실제로 정답을 맞혔는지 여부를 전혀 예측하지 못한다는 것을 보여줍니다.
Akshat Dasula, Prasanna Desikan, Jaideep Srivastava가 작성한 이 논문은 임상 예측 작업에서 모델을 테스트하고, 정확도가 49%에서 75.3%까지 변하는 조건 전반에 걸쳐 모델이 구두로 표현하는 확신도를 기록했습니다. 확신도 점수는 거의 움직이지 않았습니다. 보고된 전체 범위는 0.856에서 0.937이었습니다. 통계적 용어로 이 모델은 인식론적으로 미교정(epistemically uncalibrated) 상태입니다. 즉, 모델이 명시하는 확실성은 예측 품질이 아니라 프롬프트 형식(prompt format)을 따릅니다.
이러한 발견은 Qwen만의 특이한 현상이 아닙니다. GPT-4o 및 Claude 3.5 Sonnet을 포함한 48개의 LLM을 대상으로 한 소화기내과 임상 추론 질문에 관한 Nature 게재 연구에서도 동일한 패턴이 발견되었습니다. 모델들은 질문의 난이도나 정답 여부와 관계없이 높은 확신도를 유지했습니다. 미네소타 대학교의 논문은 더 날카로운 진단을 추가합니다. 이 연구는 교차 모델 귀속 발산(cross-model attribution divergence)을 사용하여 Qwen의 추론이 잘 교정된 기준점(well-calibrated baseline)에서 어디서 벗어나는지를 정확히 짚어냅니다.
확신에 찬 오답
이 논문의 가장 놀라운 결과는 역 난이도 효과 (inverse difficulty effect)입니다. 고전적인 그래디언트 부스팅 트리 (gradient-boosted tree) 모델인 XGBoost가 특정 사례의 하위 집합에서 99%의 정확도를 달성할 때, Qwen 2.5 7B의 정확도는 64.8%로 떨어집니다. XGBoost가 중간 정도의 확신(약 73%)을 보일 때, Qwen은 73.8% 대 73.1%로 그와 유사한 수준을 보입니다. 이 모델은 전통적인 머신러닝 (ML) 모델이 쉽게 해결하는 사례에서 정확히 가장 확신에 찬 오답을 내놓습니다.
저자들은 이를 '콜드 스타트 (cold start)' 문제로 설명합니다. LLM은 자연어 사전 학습 (pretraining)을 통해 풍부한 사전 지식 (prior knowledge)을 인코딩하고 있지만, 텍스트 문맥이 없는 임상 변수 행들과 같은 구조화된 정형 데이터 (structured tabular data)는 그 사전 지식의 범위를 벗어납니다. 모델은 XGBoost가 학습 데이터로부터 구축하는 특징 공간 (feature-space)에 대한 직관이 부족하며, 따라서 모델의 확신 신호는 실제 예측 증거보다는 프롬프트 내의 언어적 패턴을 반영하게 됩니다.
이는 임상 환경에서 의미 있는 위험 요소입니다. 만약 의사나 의사결정 지원 시스템이 언어화된 확신을 신뢰도 신호로 취급한다면, 쉬운 사례에서 내놓는 고확신 오답은 불확실성을 인정한 오답보다 더 위험합니다.
두 가지 해결책, 함께할 때 더 강력하다
연구진은 네 가지 개입 조건—기준점 (baseline), 퓨샷 예시 (few-shot examples)만 사용, SHAP 기여도 주입 (SHAP attribution injection)만 사용, 그리고 이 두 가지를 결합한 경우—을 테스트했습니다.
퓨샷 예시나 SHAP 주입 중 어느 하나만으로는 정확도를 극적으로 변화시키지 못합니다. 하지만 두 가지를 결합했을 때, 이들은 초가산적 (super-additive)인 효과를 냅니다. Qwen과 XGBoost가 동일한 특징 (features)에 대해 얼마나 다르게 가중치를 두는지를 측정하는 지표인 기여도 불일치 점수 (Attribution Disagreement Score, ADS)는 1.54에서 0.38로 떨어지며, 정확도는 49%에서 75.3%로 상승합니다. 이 과정에서 재학습 (retraining)이나 미세 조정 (fine-tuning)은 필요하지 않습니다.
네 번째 발견은 아마도 배포(deployment) 측면에서 가장 관련성이 높을 것입니다. Qwen과 XGBoost 사이의 기여도 발산(attribution divergence)을 사용하여 LLM이 언제 신뢰할 수 있는지 추정하는 교차 모델 보정기(cross-model calibrator)는 기대 보정 오차(Expected Calibration Error, ECE)를 0.254에서 0.080으로 감소시킵니다. 맥락을 설명하자면, 2026년 EACL 벤치마킹 연구에 따르면 70B 이상의 파라미터를 가진 LLM은 일반적으로 약 0.10 정도의 ECE를 달성합니다. 이 보정기는 모델 가중치(weights)에 접근하거나 반복적인 추론(inference)을 요구하지 않고도, 임상 정형 데이터(clinical tabular data)에서 7B 모델을 대략 그 수준까지 끌어올립니다.
주요 사실 (Key facts)
- 테스트 세트에서 Qwen 2.5 7B의 확신도(confidence) 범위: 0.856-0.937 (매우 상이한 정확도 수준에 걸쳐 0.081포인트의 차이 발생)
- 베이스라인(Baseline) 정확도: 49%; SHAP + 퓨샷(few-shot) 결합 시 정확도: 75.3%
- 기여도 불일치 점수(Attribution Disagreement Score): 1.54 (베이스라인) vs. 0.38 (결합된 개입 적용 시)
- 기대 보정 오차(Expected calibration error): 0.254 (베이스라인) vs. 0.080 (교차 모델 보정기 사용 시)
- 동일 작업에 대한 XGBoost 정확도: 쉬운 하위 집합(subsets)에서 ~99%, 불확실한 하위 집합에서 ~73%
단일 모델을 넘어 이것이 중요한 이유
Qwen 2.5 7B는 GPT-4o의 라이선스 비용이 부담스러운 연구 및 프로덕션 배포 환경에서 널리 사용되는 유능한 오픈 웨이트 (open-weight) 모델입니다. 이 논문의 발견은 도메인 특화 미세 조정 (fine-tuning) 없이 정형 데이터(tabular or structured data)에 대해 추론하도록 요청받는 모든 LLM에 적용됩니다. 이는 의료, 금융 및 물류 분야에서 흔히 발생하는 시나리오입니다.
실질적인 시사점은 정형 예측(structured prediction)을 위해 LLM을 포기해야 한다는 것이 아닙니다. 언어화된 확신도(verbalized confidence) 그 자체를 정형 데이터 작업의 신뢰 신호로 신뢰해서는 안 된다는 것입니다. 이 논문의 교차 모델 보정기는 가벼운 대안을 제시합니다. LLM을 전통적인 머신러닝 (ML) 모델과 쌍을 이루게 하고, 두 모델의 특성 기여도 (feature attributions)를 비교한 뒤, 그 발산(divergence)을 ML 모델에 의존하거나 인간의 검토를 요청할 시점을 판단하는 대리 지표 (proxy)로 사용하는 것입니다.
이는 더 넓은 연구적 합의와 일치합니다. 여러 2026년 연구들은 임상 정형 데이터 분류 (clinical tabular classification)에서 XGBoost와 LightGBM이 LLM보다 뛰어난 성능을 보인다는 점을 확인한 반면, LLM은 비정형 텍스트 (unstructured text) 및 추론 (reasoning) 작업에서 강점을 유지한다는 것을 확인했습니다. 구조화된 예측 (structured prediction)은 전통적인 모델에 위임하고, 설명 (explanation) 및 종합 (synthesis)을 위해 LLM을 사용하는 하이브리드 파이프라인 (hybrid pipelines)이 실질적인 절충안으로 떠오르고 있습니다.
주목해야 할 점
SHAP + 퓨샷 (few-shot) 조합이 여기서 사용된 단일 임상 데이터셋을 넘어 일반화될 수 있는지는 미결 과제로 남아 있습니다. 이 프리프린트 (preprint)는 하나의 모델을 하나의 작업에 대해 테스트했습니다. 더 큰 모델 (Llama 3 70B, Qwen 2.5 72B)과 금융 또는 운영 정형 데이터 (operational tabular data)에 대한 재현 (replication)을 통해, 이 교차 모델 보정기 (cross-model calibrator)가 광범위하게 적용 가능한 도구인지 아니면 이 실험 설정에 특화된 결과인지를 결정하게 될 것입니다. 2026년 6월에 제출되어 아직 동료 검토 (peer-review)를 거치지 않은 arXiv 프리프린트 (2606.19509)에 대한 독립적인 재현 결과는, 이를 근거로 임상 배포 결정을 내리기 전에 반드시 모니터링되어야 합니다.
출처: arxiv_ai
원문 게시: gentic.news
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기