PARTREP: Decoder-only LLM을 위한 반복 대상 학습

Decoder-only LLM은 방대한 양의 자연어 작업에서 탁월한 성능을 보이지만, 인과적 어텐션 (Causal Attention)으로 인해 발생하는 비대칭적 정보 흐름 문제로 어려움을 겪습니다. 즉, 뒤쪽 토큰이 앞쪽 토큰보다 문맥적 근거 (Contextual Grounding)가 더 풍부합니다. 간단하고 효과적인 해결책은 프롬프트 반복 (Prompt Repetition)입니다. 생성 전에 프롬프트의 두 번째 복사본을 단순히 추가하는 것만으로도 위치 전반에 걸쳐 근거를 재분배하고 추론 성능을 향상할 수 있습니다. 그러나 원본 프롬프트를 전체 반복하는 것은 KV 캐시 (KV Cache) 점유율을 두 배로 늘리고, 프리필 (Prefill) 단계에서의 어텐션 비용을 네 배로 증가시켜 긴 문맥 (Long-context) 설정에서는 비실용적입니다.

우리는 전체 프롬프트 대신 가장 정보량이 많은 토큰만을 추가하는 선택적 증강 방법인 PartRep을 제안합니다. 우리는 토큰 단위의 음의 로그 가능도 (Negative Log-Likelihood, NLL)를 선택 신호로 사용합니다. 이는 예측 가능성이 낮은 토큰일수록 주변 문맥으로부터 복구하기 어렵기 때문에, 뒤쪽 위치의 반복으로부터 더 많은 이득을 얻을 것이라는 가설에 기반합니다. 점수 산출을 위한 전체 순전파 (Forward Pass)의 막대한 비용을 피하기 위해, 우리는 초기 레이어의 은닉 상태 (Hidden States)로부터 높은 NLL 토큰을 예측하는 경량 게이트 (Gate)를 학습시켜, 미드-프리필 (Mid-prefill) 단계에서 조기 종료 (Early Exit)를 통한 토큰 선택을 가능하게 합니다. 8개의 벤치마크 (MMLU, GSM8K, RULER 포함)와 3개의 모델 제품군 (Qwen2.5, Llama3.2, Gemma4)에 걸쳐 테스트한 결과, PartRep은 전체 반복 방식의 이점을 대부분 유지하면서도 KV 캐시의 59.4%와 프리필 FLOPs의 79.0%만을 사용합니다.

Insights

PARTREP: Decoder-only LLM을 위한 반복 대상 학습

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때