arXiv논문2026. 06. 16. 11:56

재입력은 재생이 아니다: 반사실적 토큰-크레딧 추정에서의 재생 노이즈 측정

요약

언어 모델의 토큰별 인과적 크레딧 추정 시, 기존의 재입력(re-feed) 방식이 모델의 상태를 정확히 재현하지 못해 발생하는 노이즈를 분석합니다. 연구 결과, 재입력 방식은 결정적 토큰의 선택에 큰 오류를 범할 수 있으므로 KV 상태를 직접 재개하는 방식을 권장합니다.

핵심 포인트

재입력 방식은 모델의 생성 상태를 완벽히 재현하지 못해 노이즈를 유발함
결정 토큰(decision tokens)에서 재입력 시 크레딧 추정치 변화가 14-28%p 발생
정확한 분석을 위해 KV 상태 재개 또는 배치 불변 커널 사용 권장
단일 샘플 크레딧 측정은 재생 방식과 관계없이 신뢰도가 낮을 수 있음

토큰별 반사실적 크레딧 추정 (Per-token counterfactual credit estimation)은 언어 모델의 롤아웃 (rollout) 중 어떤 토큰이 최종 답변의 정답 또는 오답을 유발했는지 묻습니다: 피벗 (pivot) 지점에서 트랜스크립트를 자르고, 대안 토큰으로 교체한 뒤, 연속된 내용을 재생 (replay) 하여 결과를 비교하는 방식입니다. 기존에 발표된 방법들은 트랜스크립트 접두사 (prefix)를 새로운 프롬프트로 재입력 (re-feed) 하며, 이것이 모델이 생성 과정 중에 거쳤던 상태를 재현한다고 가정합니다. 우리는 세 가지 패스 (pass) 설계—검증된 디코드 시점의 KV 상태에서 재개되는 연속 생성 (continuations resumed from the verified decode-time KV state), 동일한 두 번째 정확한 패스 (replica noise floor), 그리고 재입력 패스 (re-feed pass)—를 통해 표준 추론 엔진에서 해당 가정이 초래하는 비용을 측정합니다. 6가지 구성과 3가지 모델 (GRPO로 훈련된 체크포인트 포함)에 걸쳐 실험한 결과, 마진이 낮은 결정 토큰 (decision tokens)에서 재입력은 레플리카 바닥 (replica floor)보다 14-28%포인트 더 높은 비율로 크레딧 추정치를 변화시켰습니다 (처치 독립적 조건화 (treatment-independent conditioning) 하에서는 7-21%포인트; 문제 클러스터링 기준 t = 2.9-6.4). 대부분의 변화는 극성 반전 (polarity reversals)이라기보다 양자화된 추정기 (quantized estimator)의 제로 경계 교차 (zero-boundary crossings)이며, 섭동 (perturbation)은 평균이 0인 것과 일치하므로 평균화된 수치들은 대체로 안전합니다. 하지만 선택 (selection)은 그렇지 않습니다: 재입력 하에서 $|\hat{A}_t|$ 임계값 적용을 통해 선택된 핵심 토큰 세트는 정확한 재개 (exact-resume) 선택과 Jaccard 지수 0.34-0.90로 겹치는 반면, 레플리카 상한 (replica ceiling)은 0.63-0.96입니다. 인과적 확인 (causal confirmation)을 통해 루프를 닫으면: vLLM의 배치 불변 커널 (batch-invariant kernels) 하에서는 측정된 모든 채널에서 세 가지 패스가 동일하며, 불일치율은 정확히 0입니다. 레플리카 패스 자체도 적격한 추정치의 9-23%에서 불일치합니다: 결정 토큰에서의 단일 샘플 크레딧 측정은 어떤 재생 방식 하에서도 신뢰할 수 없습니다. 설정은 사전에 고정되었습니다; 두 번째 캠페인의 정확한 패스 캐시 히트 (exact-pass cache hits)는 계측되었습니다 (히트율 100%, 3,434개 피벗); 총 계산 비용은 10 USD 미만이었습니다. 우리는 반사실적 크레딧 연구가 디코더 상태를 재개하거나 배치 불변 커널을 사용할 것을 권장하며, 레플리카 바닥 (replica floor)을 보고할 것을 권장합니다.

AI 자동 생성 콘텐츠

원문 바로가기

재입력은 재생이 아니다: 반사실적 토큰-크레딧 추정에서의 재생 노이즈 측정

요약

핵심 포인트

댓글