대리 충실도 (Surrogate Fidelity): 오픈 LLM은 언제 폐쇄형 모델을 설명할 수 있는가?
요약
오픈 모델의 측정이 폐쇄형 모델의 내부 구조를 얼마나 정확히 설명할 수 있는지 '대리 충실도'를 연구합니다. 실험 결과, 예측 성능이 일치하더라도 모델의 행동 원인(기여도)은 서로 다를 수 있음을 발견했습니다.
핵심 포인트
- 오픈 모델의 로그 확률을 통한 폐쇄형 모델의 대리 측정 가능성 평가
- 예측 충실도가 기여도 충실도를 과장하는 경향 확인
- 화이트박스 신호는 안정적이나 블랙박스 입력 절제 예측력은 낮음
- 예측 일치만으로는 기계론적 통찰의 자동 전이를 보장할 수 없음
기계론적 해석 가능성 (Mechanistic interpretability, MI)은 모델 내부 구조에 대한 완전한 접근을 필요로 하지만, 가장 널리 배포된 언어 모델들의 API는 기껏해야 출력 토큰에 대한 로그 확률 (log-probabilities)만을 노출합니다. 이는 대리 문제 (surrogate problem)를 야기합니다: 오픈 모델 (open models)에서 수행된 측정이 언제 폐쇄형 모델 (closed model)에 대한 주장을 가능하게 하는가? 우리는 예측 (prediction), 기여도 (attribution), 그리고 표현 (representation) 수준에서 대리 충실도 (surrogate fidelity)를 평가합니다. 이진 분류 (binary classification) 작업의 경우, 로그 오즈 (log-odds)는 모델의 표현 공간 (representation space)에 대해 API 호환이 가능한 스칼라 판독값을 제공하며, 하나를 제외한 기여도 (leave-one-out attributions)는 모델의 행동에 대한 통찰을 제공합니다. 4개의 제품군 (Llama, Qwen, GPT, Gemini)에 걸친 11개 모델을 대상으로 조사한 결과, 예측 충실도 (prediction fidelity)가 기여도 충실도 (attribution fidelity)를 상당히 과장한다는 것을 발견했습니다: 정답이 무엇인지에 대해 일치하는 모델들이 그 이유가 무엇인지에 대해서는 일치하지 않는 경우가 많습니다. 우리는 접근-유효성 역전 (access-validity inversion) 현상을 기록했습니다: 어텐션 패턴 (attention patterns) 및 섭동 크기 (perturbation magnitudes)와 같은 화이트박스 (white-box) 신호는 모델 간에 매우 안정적이지만, 블랙박스 (black-box) 입력 절제 (input ablations)가 설계상 포착하는 인과적 기여도 (causal attributions)를 예측하는 능력은 약합니다. 기계론적 통찰 (Mechanistic insight)이 폐쇄형 대상 (closed targets)으로 자동 전이되지는 않으며, 예측 수준의 일치만으로는 그러한 전이를 보장하기에 불충분합니다. 코드와 결과는 https://github.com/facebookresearch/surrogate 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기