arXiv논문2026. 05. 07. 17:26

로컬 학습 재고찰: LLM 후 훈련을 위한 더 저렴하고 빠른 레시피

요약

본 논문은 대규모 언어 모델(LLM)의 후 훈련 과정이 전체 깊이에 걸쳐 작업 기울기를 전파하는 기존 방식을 비싸고 침습적이라고 지적하며, 새로운 방법인 LoPT(Local-Learning Post-Training)를 제안합니다. LoPT는 트랜스포머 구조의 중간 지점에 단일 기울기 경계를 설정하여 후 훈련을 수행합니다. 이 방식은 작업 목표로부터 학습하는 부분과 표현 보존을 위한 부분을 분리하고, 초기 레이어에 대한 직접적인 간섭을 최소화하면서도 높은 효율성과 성능을 달성합니다.

핵심 포인트

기존 LLM 후 훈련(post-training) 방식은 전체 깊이에 걸쳐 작업 기울기를 전파하여 비용이 높고 모델에 침습적일 수 있다.
LoPT(Local-Learning Post-Training)는 트랜스포머 중간 지점에 단일 기울기 경계를 설정하는 새로운 후 훈련 전략이다.
LoPT는 작업을 학습하는 부분과 표현 보존을 위한 부분을 분리하여, 초기 레이어의 유용한 표현 손실을 최소화한다.
실험 결과, LoPT는 낮은 메모리 비용, 높은 훈련 효율성, 그리고 우수한 사전 학습 능력 보존 능력을 입증했다.

LLM(대규모 언어 모델) 후 훈련 (post-training) 은 일반적으로 전체 깊이 (full depth) 를 통해 작업 기울기 (task gradients) 를 전파합니다. 이 엔드 투 엔드 (end-to-end) 구조는 단순하고 일반적이지만, 작업 적응을 전체 깊이의 활성화 저장, 장기 역방향 의존성 및 사전 학습 표현에 대한 직접적인 작업 기울기 접근과 결합시킵니다. 우리는 이러한 전체 깊이 역방향 결합이 불필요하게 비싸고 침습적일 수 있다고 주장합니다. 특히 후 훈련 감독 (supervision) 이 사전 훈련보다 훨씬 좁을 때 더 그렇습니다. 이를 위해 우리는 extbf{LoPT} (Local-Learning Post-Training) 을 제안합니다. LoPT 는 기울기 도달을 명시적인 설계 선택으로 만드는 간단한 후 훈련 전략입니다. LoPT 는 트랜스포머의 중간 지점에 단일 기울기 경계 (gradient boundary) 를 배치합니다: 두 번째 반 블록은 작업 목표로부터 학습하고, 첫 번째 반 블록은 유용한 표현을 보존하고 인터페이스 호환성을 유지하기 위해 경량 특징 재구성 목표 (lightweight feature-reconstruction objective) 로 업데이트됩니다. LoPT 는 작업에 의해 유도된 역방향 경로를 단축하며 초기 레이어 표현에 대한 좁은 작업 기울기의 직접적인 간섭을 제한합니다. 광범위한 실험 결과, LoPT 는 더 낮은 메모리 비용, 더 높은 훈련 효율성 및 사전 학습 능력의 더 나은 보존으로 경쟁력 있는 성능을 달성함을 보여줍니다. 우리의 코드는 다음 URL 에서 이용 가능합니다: https://github.com/HumyuShi/LoPT

AI 자동 생성 콘텐츠

원문 바로가기

로컬 학습 재고찰: LLM 후 훈련을 위한 더 저렴하고 빠른 레시피

요약

핵심 포인트

댓글