FocuSFT: 희석 인식(Dilution-Aware)을 위한 이중 레벨 최적화 기반 장문 컨텍스트 파인튜닝
요약
본 논문은 LLM이 긴 컨텍스트에 걸쳐 분산된 정보를 효과적으로 활용하는 데 어려움을 겪는 문제(어텐션 희석)를 해결하기 위해 FocuSFT라는 새로운 이중 레벨 최적화 프레임워크를 제안합니다. FocuSFT는 내부 루프에서 관련 콘텐츠에 주의를 집중시키는 매개변수 메모리를 형성하고, 외부 루프에서 이를 조건으로 SFT를 수행하여 모델의 장문 컨텍스트 능력을 향상시킵니다. 이 방법은 다양한 벤치마크에서 높은 정확도 개선을 보여주었습니다.
핵심 포인트
- LLM의 긴 컨텍스트 처리 능력은 위치 편향과 어텐션 싱크로 인해 발생하는 '훈련 시간 어텐션 희석' 문제에 의해 제한됩니다.
- FocuSFT는 내부 루프(매개변수 메모리 형성)와 외부 루프(정제된 표현 기반 SFT)의 이중 레벨 최적화 구조를 채택하여 문제를 해결합니다.
- 이 프레임워크는 컨텍스트 토큰에 대해 양방향 어텐션을 적용하고 인과 비대칭성을 줄여 모델의 주의 집중도를 높입니다.
- 실험 결과, FocuSFT는 4K~32K 컨텍스트 길이에서 최대 +14pp의 정확도 향상 및 에이전트 도구 사용 등 복잡한 작업에서 높은 성능 개선을 입증했습니다.
대규모 언어 모델(LLM)은 이제 점점 더 긴 입력을 처리할 수 있게 되었지만, 긴 컨텍스트에 걸쳐 분산된 정보를 효과적으로 활용하는 능력은 여전히 제한적입니다. 우리는 이 격차를 장(long) 시퀀스에서 지도 학습 파인튜닝(SFT) 중 어텐션 예산이 어떻게 사용되는지에 기인한다고 추적합니다: 위치 편향(positional biases)과 어텐션 싱크(attention sinks)가 모델로 하여금 의미적으로 관련 있는 내용보다는 위치상 특권적인 토큰에 대부분의 주의를 할당하도록 만듭니다. 이러한 훈련 시간 어텐션 희석(training-time attention dilution, 어텐션 분포에서 컨텐츠 토큰이 기아 상태에 빠지는 현상)은 기울기 신호(gradient signal)를 약화시켜 모델이 강력한 장문 컨텍스트 능력을 학습하는 것을 제한합니다. 우리는 훈련 시간에 이 문제를 해결하는 이중 레벨 최적화 프레임워크인 FocuSFT를 소개합니다. 내부 루프는 훈련 컨텍스트의 경량 빠른 가중치 파라미터(fast-weight parameters)를 조정하여 관련 콘텐츠에 주의를 집중시키는 매개변수 메모리(parametric memory)를 형성하고, 외부 루프는 이 정제된 표현(sharpened representation)을 조건으로 SFT를 수행합니다. 두 루프 모두 응답에 대한 인과 마스킹(causal masking)을 유지하면서 컨텍스트 토큰에 대해 양방향 어텐션(bidirectional attention)을 적용하여, 어텐션 싱크의 원인이 되는 인과 비대칭성(causal asymmetry)을 줄이고 내부-외부 동작을 정렬합니다. BABILong에서 FocuSFT는 4K~32K 컨텍스트 길이 전반에 걸쳐 정확도를 최대 +14pp 향상시켰으며, RULER에서는 16K에서 CWE 집계율을 72.9%에서 81.1%로 높였고, 에이전트 도구 사용(agentic tool use)을 포함한 GPQA에서는 pass@1 기준 상대적 이득을 24% 달성했습니다.
어텐션 분석에 따르면, FocuSFT는 어텐션 싱크 질량(attention sink mass)을 529배 줄이고 학습 과정에서 컨텍스트 참여도(context engagement)를 세 배로 높입니다. 코드: https://github.com/JarvisPei/FocuSFT
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기