MarginGate: 배치 불변(Batch-Invariant) LLM 추론을 위한 희소 마진 트리거 검증 방식
요약
배치 크기에 따라 LLM의 출력 토큰이 달라지는 문제를 해결하기 위해, 토큰이 뒤바뀌는 희소한 상황에서만 검증을 수행하는 MarginGate 방식을 제안합니다. 로짓 마진을 기반으로 검증 트리거를 결정하여 결정론적 디코딩을 복구하면서도 지연 시간을 획기적으로 줄였습니다.
핵심 포인트
- 배치 크기 변화에 따른 LLM 출력 불일치 문제 해결
- 로짓 마진을 활용한 희소 마진 트리거 검증 방식 제안
- 상시 검증 대비 지연 시간 최대 2.23배 감소
- Llama-3.1 및 Qwen2.5 모델에서 100% 결정론적 디코딩 복구
Temperature-zero BF16 LLM 추론은 흔히 재현 가능하다고 여겨지지만, 동일한 요청이라도 단독으로 디코딩될 때와 더 큰 배치(Batch) 내에서 디코딩될 때 서로 다른 토큰을 생성할 수 있습니다. 기존의 해결책들은 배치 불변(Batch-invariant) 연산자를 사용하거나 LLM-42의 토큰별 검증(Per-token verification) 방식을 사용하는데, 이는 대부분의 단계가 안정적인 상황에서도 비용을 발생시킵니다. 우리는 검증을 토큰이 뒤바뀌는(Flipped) 경우에만 독점적으로 적용할 수 있는지 질문을 던집니다. 5개의 모델을 대상으로 조사한 결과, flip-rate 벤치마크에서 배치로 인해 유도된 토큰 뒤바뀜은 매우 희소하게 나타났습니다. MATH500 데이터셋에서 Llama-3.1-8B는 동기식 디코딩(Synchronous decode) 단계의 0.48%에서 토큰이 뒤바뀌었으며, 테스트된 모든 모델은 MATH500, GSM8K, HumanEval에서 0.3-1.3% 범위 내를 유지했습니다. K/V 섭동(Perturbations)은 토큰이 뒤바뀌기 전까지는 평탄하게 유지되는 반면, 낮은 top-1/top-2 로짓 마진(Logit margins)은 뒤바뀜 위험의 상당 부분을 드러냅니다. MarginGate는 이러한 관찰 결과를 검증기 정책(Verifier policy)으로 전환합니다. 즉, 마진이 높은 단계에서는 BF16 디코딩을 유지하고, 마진이 낮은 단계에서만 검증을 수행하며, 확인된 불일치는 현재의 K/V 컬럼을 교체함으로써 복구합니다. 우리는 MATH500에서 보정(Calibrating)을 수행하고 GSM8K, SharedGPT, HumanEval로 전이(Transferring)하여 4개의 데이터셋에서 평가를 진행했습니다. MarginGate는 Llama-3.1-8B와 Qwen2.5-14B에서 각각 18.56%/15.05%의 검증기 트리거율(Verifier trigger rates)로 100% 시퀀스 수준의 결정론적 디코딩(Deterministic decoding)을 복구하였으며, 상시 검증(Always-on verification) 대비 LLM-42의 지연 시간 증가를 2.23배/1.99배 감소시켰습니다. DSR1-Distill-Qwen-7B의 경우, 동일한 정책을 통해 더 어려운 환경에서도 49.50%의 트리거율로 결정론적 상태에 도달했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기