본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 23. 11:13

트리로 체인 끊기: $\mathcal{O}(\log N)$ 병렬 시간 복잡도를 갖는 딥러닝 (Deep learning)

요약

기존 역전파 방식의 순차적 제약을 극복하기 위해 계층적 블록 국소 학습(HBLL) 프레임워크를 제안합니다. HBLL은 $\mathcal{O}(\log N)$의 병렬 시간 복잡도로 심층 신경망을 학습할 수 있어 확장성을 크게 높였습니다.

핵심 포인트

  • 역전파의 순차적 의존성 및 락킹 현상 해결
  • $\mathcal{O}(\log N)$ 병렬 시간 복잡도를 갖는 최초의 알고리즘
  • 변분 원리를 활용한 로컬 학습 목적 함수 도입
  • 비전 및 언어 모델링 태스크에서 경쟁력 있는 성능 입증
  • 순환 시퀀스 아키텍처로의 확장 가능성 확인

현대의 심층 신경망 (Deep neural network) 아키텍처는 역전파 (Backpropagation)를 통해 학습되며, 이는 파라미터가 업데이트되기 전에 오류가 모든 레이어를 통해 순차적으로 전파될 것을 요구합니다. 이는 두 가지 제한 사항을 초래합니다: 레이어별 업데이트가 엄격하게 상호 의존적이며 병렬로 진행될 수 없는 락킹 (Locking) 현상, 그리고 정확한 그래디언트 (Gradient) 계산을 위해 대칭적인 순방향 및 역방향 경로를 요구하는 가중치 전송 문제 (Weight transport problem)입니다. 이러한 제약 조건은 병렬성을 제한하고, 메모리 및 통신 오버헤드를 증가시키며, 확장 가능한 학습 (Scalable learning)에 어려움을 줍니다. 본 연구에서는 심층 신경망을 계층적으로 연결된 블록으로 분해하고, 변분 원리 (Variational principles)에서 도출된 로컬 학습 목적 함수를 사용하여 학습하는 프레임워크인 계층적 블록 국소 학습 (Hierarchical Block-Local Learning, HBLL)을 제안합니다. 이는 네트워크 전체에 걸쳐 효과적인 정보 전파를 유지하면서도 전체 엔드투엔드 (End-to-end) 역전파의 필요성을 제거합니다. HBLL은 $N$이 네트워크 레이어의 수일 때, $\mathcal{O}(\log N)$의 병렬 시간 복잡도로 심층 신경망을 학습할 수 있는 최초의 알고리즘입니다. 우리는 HBLL이 서로 다른 계층적 경로에 해당하는 서브네트워크 (Subnetworks) 제품군을 암시적으로 정의하여, 서로 다른 유효 레이어 수로 유연한 추론 (Inference)을 가능하게 함을 보여줍니다. 우리는 도전적인 비전 (Vision) 및 언어 모델링 (Language modeling) 태스크 세트에서 HBLL을 평가하여 경쟁력 있는 성능을 달성했습니다. 또한 HBLL을 순환 시퀀스 아키텍처 (Recurrent sequence architectures)로 확장하여, 기존에는 시간 기반 역전파 (Backpropagation through time)에 의존하던 설정에도 적용했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0