본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 07. 17:26

로컬 학습 재고찰: LLM 후 훈련을 위한 더 저렴하고 빠른 레시피

요약

본 논문은 대규모 언어 모델(LLM)의 후 훈련 과정이 전체 깊이에 걸쳐 작업 기울기를 전파하는 기존 방식을 비싸고 침습적이라고 지적하며, 새로운 방법인 LoPT(Local-Learning Post-Training)를 제안합니다. LoPT는 트랜스포머 구조의 중간 지점에 단일 기울기 경계를 설정하여 후 훈련을 수행합니다. 이 방식은 작업 목표로부터 학습하는 부분과 표현 보존을 위한 부분을 분리하고, 초기 레이어에 대한 직접적인 간섭을 최소화하면서도 높은 효율성과 성능을 달성합니다.

핵심 포인트

  • 기존 LLM 후 훈련(post-training) 방식은 전체 깊이에 걸쳐 작업 기울기를 전파하여 비용이 높고 모델에 침습적일 수 있다.
  • LoPT(Local-Learning Post-Training)는 트랜스포머 중간 지점에 단일 기울기 경계를 설정하는 새로운 후 훈련 전략이다.
  • LoPT는 작업을 학습하는 부분과 표현 보존을 위한 부분을 분리하여, 초기 레이어의 유용한 표현 손실을 최소화한다.
  • 실험 결과, LoPT는 낮은 메모리 비용, 높은 훈련 효율성, 그리고 우수한 사전 학습 능력 보존 능력을 입증했다.

LLM(대규모 언어 모델) 후 훈련 (post-training) 은 일반적으로 전체 깊이 (full depth) 를 통해 작업 기울기 (task gradients) 를 전파합니다. 이 엔드 투 엔드 (end-to-end) 구조는 단순하고 일반적이지만, 작업 적응을 전체 깊이의 활성화 저장, 장기 역방향 의존성 및 사전 학습 표현에 대한 직접적인 작업 기울기 접근과 결합시킵니다. 우리는 이러한 전체 깊이 역방향 결합이 불필요하게 비싸고 침습적일 수 있다고 주장합니다. 특히 후 훈련 감독 (supervision) 이 사전 훈련보다 훨씬 좁을 때 더 그렇습니다. 이를 위해 우리는 extbf{LoPT} (Local-Learning Post-Training) 을 제안합니다. LoPT 는 기울기 도달을 명시적인 설계 선택으로 만드는 간단한 후 훈련 전략입니다. LoPT 는 트랜스포머의 중간 지점에 단일 기울기 경계 (gradient boundary) 를 배치합니다: 두 번째 반 블록은 작업 목표로부터 학습하고, 첫 번째 반 블록은 유용한 표현을 보존하고 인터페이스 호환성을 유지하기 위해 경량 특징 재구성 목표 (lightweight feature-reconstruction objective) 로 업데이트됩니다. LoPT 는 작업에 의해 유도된 역방향 경로를 단축하며 초기 레이어 표현에 대한 좁은 작업 기울기의 직접적인 간섭을 제한합니다. 광범위한 실험 결과, LoPT 는 더 낮은 메모리 비용, 더 높은 훈련 효율성 및 사전 학습 능력의 더 나은 보존으로 경쟁력 있는 성능을 달성함을 보여줍니다. 우리의 코드는 다음 URL 에서 이용 가능합니다: https://github.com/HumyuShi/LoPT

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0