arXiv논문2026. 05. 08. 16:45

Long Context Pre-Training with Lighthouse Attention

요약

본 논문은 극단적인 시퀀스 길이에서 인과 트랜스포머를 훈련할 때 발생하는 스케일된 점곱 주의(SDPA)의 시간 및 메모리 제약을 해결하기 위해 'Lighthouse Attention'이라는 새로운 계층적 주의 알고리즘을 제안합니다. 이 방법은 적응적 압축, 대칭 압축 전략을 통해 병렬성을 높이고, 쿼리, 키, 밸류를 동시에 풀링하여 효율성을 극대화했습니다. 또한, 대부분의 시간 동안 Lighthouse Attention으로 사전 훈련하고 짧은 과정으로 전체 주의 모델을 복원하는 2단계 훈련 접근법을 제시하여 성능과 속도를 모두 개선했습니다.

핵심 포인트

Lighthouse Attention: SDPA의 제약을 극복하기 위해 설계된 대칭 선택 기반 계층적 주의 알고리즘입니다.
효율성 향상: 적응적 압축 및 분해, 그리고 쿼리/키/밸류 동시 풀링을 통해 병렬성을 크게 개선했습니다.
2단계 훈련 접근법: 대부분의 사전 훈련은 Lighthouse Attention으로 수행하고, 최종적으로 전체 주의 모델로 짧게 복원하여 시간 효율성과 낮은 손실을 달성합니다.
기술적 우위: 계층적 선택 과정이 그래디언트 프리(gradient-free)여서 백워드 패스 커널의 복잡성을 줄였습니다.

극단적 시퀀스 길에서 인과 트랜스포머를 훈련시키는 것은 스케일된 점곱 주의 (SDPA) 의 제곱 시간 및 메모리 제한에 의해 병목화됩니다. 이 논문에서는, 일반적인 SDPA 를 감싸고 쉽게 제거할 수 있는 훈련 전용 대칭 선택 기반 계층적 주의 알고리즘인 Lighthouse Attention 을 제안합니다. 우리의 계층적 선택은 또한 그라디언트 프리이며, 복잡한 및 잠재적으로 비효율적인 백워드 패스 커널을 처리하는 것을 제외시킵니다. 우리의 기여는 세 가지입니다: (i) 시퀀스의 적응적 압축 및 분해를 수행하는 제곱 이하 계층적 전처리 및 후처리 단계. (ii) 쿼리, 키, 밸류를 동시에 풀링하면서 좌우 인과성을 보존하는 대칭 압축 전략, 이는 병렬성을 크게 개선합니다. (iii) Lighthouse Attention 으로 대부분의 시간 동안 사전 훈련하고 짧은 훈련으로 끝에서 전체 주의 모델을 복원하는 2 단계 훈련 접근법. 우리는 다른 모든 설정을 일치시켜서 전체 주의 훈련에 비해 우리의 방법의 효과를 보여주는 예비 소규모 LLM 사전 훈련 실험을 수행했습니다, 여기서 복원 후 더 빠른 총 훈련 시간과 더 낮은 최종 손실을 달성했습니다. 전체 코드는 다음과 같이 이용 가능합니다: https://github.com/ighoshsubho/lighthouse-attention

AI 자동 생성 콘텐츠

원문 바로가기

Long Context Pre-Training with Lighthouse Attention

요약

핵심 포인트

댓글