arXiv논문2026. 05. 26. 12:49

언어 모델 내부의 신뢰할 수 있는 해석을 위한 활성화 오라클 (Activation Oracles)의 신뢰도 및 보정 (Calibration)

요약

활성화 오라클(Activation Oracles)의 자연어 출력에 대한 불확실성 정량화 및 신뢰도 보정 방법을 연구했습니다. 6가지 추정 방법을 비교한 결과, 부트스트랩 모드 빈도가 가장 우수한 보정 성능을 보임을 확인했습니다.

핵심 포인트

활성화 오라클의 불확실성 정량화(UQ) 연구 수행
부트스트랩 모드 빈도가 가장 잘 보정된 방법으로 확인
로그 확률 베이스라인의 효율적인 분류 신호 활용 가능성 제시
Qwen 모델을 활용한 다양한 실험 및 벤치마크 수행

활성화 오라클 (Activation oracles)은 다른 모델의 활성화 (activations)를 인간이 읽을 수 있게 만드는 것을 목표로 하며, 화이트박스 해석 가능성 (white-box interpretability) 기술과 비교했을 때 유망한 결과를 보여줍니다. 하지만 이러한 활성화 오라클의 자연어 출력에 대한 불확실성 정량화 (uncertainty quantification, UQ)는 지금까지 충분히 연구되지 않았습니다. 본 연구에서는 활성화 오라클의 신뢰도 (confidence)를 추정하기 위한 6가지 서로 다른 방법을 조사하고, 그 신뢰도 점수가 얼마나 잘 보정 (calibrated)되어 있는지 평가합니다. 오라클당 6,000개의 샘플(언어화 도구(verbalizer) 및 컨텍스트 프롬프트(context prompts) 변동 포함)을 대상으로 한 실험 결과, 부트스트랩 모드 빈도 (bootstrap mode frequency)가 테스트된 방법 중 가장 잘 보정된 방법임을 확인했습니다 (Qwen3-8B의 정답 단어 로그 확률 (answer-word log-probability)에 대해 ECE 5.7% 대 25.5%; Qwen3.6-27B에 대해 10.3% 대 13.1%). 또한 로그 확률 (log-prob) 베이스라인이 훨씬 적은 비용으로 빠른 분류 (triage) 신호 역할을 할 수 있음을 보여줍니다. 코드와 패치된 트레이너 (patched trainer)는 https://github.com/federicotorrielli/probabilistic_activation_oracles 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

언어 모델 내부의 신뢰할 수 있는 해석을 위한 활성화 오라클 (Activation Oracles)의 신뢰도 및 보정 (Calibration)

요약

핵심 포인트

댓글