대리 충실도 (Surrogate Fidelity): 오픈 LLM은 언제 폐쇄형 모델을 설명할 수 있는가?

기계론적 해석 가능성 (Mechanistic interpretability, MI)은 모델 내부 구조에 대한 완전한 접근을 필요로 하지만, 가장 널리 배포된 언어 모델들의 API는 기껏해야 출력 토큰에 대한 로그 확률 (log-probabilities)만을 노출합니다. 이는 대리 문제 (surrogate problem)를 야기합니다: 오픈 모델 (open models)에서 수행된 측정이 언제 폐쇄형 모델 (closed model)에 대한 주장을 가능하게 하는가? 우리는 예측 (prediction), 기여도 (attribution), 그리고 표현 (representation) 수준에서 대리 충실도 (surrogate fidelity)를 평가합니다. 이진 분류 (binary classification) 작업의 경우, 로그 오즈 (log-odds)는 모델의 표현 공간 (representation space)에 대해 API 호환이 가능한 스칼라 판독값을 제공하며, 하나를 제외한 기여도 (leave-one-out attributions)는 모델의 행동에 대한 통찰을 제공합니다. 4개의 제품군 (Llama, Qwen, GPT, Gemini)에 걸친 11개 모델을 대상으로 조사한 결과, 예측 충실도 (prediction fidelity)가 기여도 충실도 (attribution fidelity)를 상당히 과장한다는 것을 발견했습니다: 정답이 무엇인지에 대해 일치하는 모델들이 그 이유가 무엇인지에 대해서는 일치하지 않는 경우가 많습니다. 우리는 접근-유효성 역전 (access-validity inversion) 현상을 기록했습니다: 어텐션 패턴 (attention patterns) 및 섭동 크기 (perturbation magnitudes)와 같은 화이트박스 (white-box) 신호는 모델 간에 매우 안정적이지만, 블랙박스 (black-box) 입력 절제 (input ablations)가 설계상 포착하는 인과적 기여도 (causal attributions)를 예측하는 능력은 약합니다. 기계론적 통찰 (Mechanistic insight)이 폐쇄형 대상 (closed targets)으로 자동 전이되지는 않으며, 예측 수준의 일치만으로는 그러한 전이를 보장하기에 불충분합니다. 코드와 결과는 https://github.com/facebookresearch/surrogate 에서 확인할 수 있습니다.

Insights

대리 충실도 (Surrogate Fidelity): 오픈 LLM은 언제 폐쇄형 모델을 설명할 수 있는가?

요약

핵심 포인트

댓글

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기