EndPrompt: 터미널 앵커링(Terminal Anchoring)을 통한 효율적인 긴 문맥 확장
요약
EndPrompt는 대규모 언어 모델(LLMs)의 문맥 창 확장 시 발생하는 높은 계산 비용 문제를 해결하기 위해 제안된 방법론입니다. 이 방식은 전체 길이의 긴 입력 시퀀스를 학습할 필요 없이, 짧은 초기 문맥과 터미널 프롬프트라는 두 개의 세그먼트를 결합하여 목표 문맥 길이 근처에 위치 인덱스를 할당합니다. 이론적 분석을 통해 EndPrompt가 의미론적 연속성을 유지하면서 국소 및 장거리 상대적 거리를 효과적으로 도입할 수 있음을 입증했으며, 실제 벤치마크 테스트에서 기존의 긴 시퀀스 학습 방식들보다 우수한 성능과 효율성을 보여주었습니다.
핵심 포인트
- EndPrompt는 LLM 문맥 확장 시 발생하는 이차 함수적 계산 비용 문제를 해결합니다.
- 전체 길이 입력 대신 짧은 초기 문맥과 터미널 프롬프트라는 이중 세그먼트 구성을 사용합니다.
- 이 방법론은 의미론적 연속성과 국소/장거리 상대적 거리를 동시에 유지할 수 있습니다.
- RoPE와 Bernstein 부등식 기반의 이론적 분석을 통해 위치 보간 및 외삽에 대한 안정성을 입증했습니다.
- LLaMA 계열 모델 적용 결과, LCEG, LongLoRA 등 기존 방법론 대비 높은 성능과 효율성을 달성했습니다.
대규모 언어 모델(Large Language Models, LLMs)의 문맥 창(Context Window)을 확장하는 작업은 일반적으로 목표 길이에 맞춘 시퀀스 학습을 필요로 하며, 이는 이차 함수적(Quadratic) 메모리 및 계산 비용을 발생시켜 긴 문맥 적응(Long-context adaptation)을 비용이 많이 들고 재현하기 어렵게 만듭니다. 우리는 짧은 학습 시퀀스만을 사용하여 효과적인 문맥 확장을 달성하는 방법인 EndPrompt를 제안합니다. 핵심 통찰은 모델에게 장거리 상대적 위치 거리(Long-range relative positional distances)를 노출시키기 위해 전체 길이의 입력을 구성할 필요가 없다는 것입니다. 우리는 원래의 짧은 문맥을 온전한 첫 번째 세그먼트로 보존하고, 짧은 터미널 프롬프트(Terminal prompt)를 두 번째 세그먼트로 추가하여 이를 목표 문맥 길이 근처의 위치 인덱스(Positional indices)에 할당합니다. 이러한 이중 세그먼트 구성은 학습 텍스트의 의미론적 연속성(Semantic continuity)을 유지하면서 짧은 물리적 시퀀스 내에 국소적(Local) 및 장거리 상대적 거리를 모두 도입합니다. 이는 연속적인 문맥을 분할하는 청크 기반 시뮬레이션(Chunk-based simulation) 방식에는 없는 특성입니다. 우리는 Rotary Position Embedding (RoPE)과 Bernstein 부등식(Bernstein inequality)에 근거한 이론적 분석을 제공하여, 위치 보간(Position interpolation)이 어텐션 함수(Attention function)에 엄격한 매끄러움 제약(Smoothness constraint)을 유도하며, 공유된 Transformer 파라미터가 관찰되지 않은 중간 거리로의 불안정한 외삽(Extrapolation)을 더욱 억제함을 보여줍니다. 문맥 창을 8K에서 64K로 확장하는 LLaMA 계열 모델에 적용했을 때, EndPrompt는 평균 RULER 점수 76.03을 달성하였고 LongBench에서 가장 높은 평균 점수를 기록하며, 훨씬 적은 계산량을 요구하면서도 LCEG (72.24), LongLoRA (72.95), 그리고 전체 길이 미세 조정(Full-length fine-tuning, 69.23)을 능가했습니다. 이러한 결과는 희소한 위치 감독(Sparse positional supervision)으로부터 긴 문맥 일반화(Long-context generalization)를 유도할 수 있음을 입증하며, 신뢰할 수 있는 문맥 창 확장을 위해 밀집된 긴 시퀀스 학습(Dense long-sequence training)이 필수적이라는 기존의 가설에 도전합니다. 코드는 https://github.com/clx1415926/EndPrompt 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기