본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 23. 14:01

Transformer 미세 조정(Fine-Tuning)의 에너지 소비: Roofline에서 영감을 얻은 스케일링 모델

요약

Transformer 모델 학습 시 발생하는 에너지 소비를 예측하기 위한 새로운 프레임워크를 제안합니다. Roofline 모델에서 영감을 얻어 하드웨어 효율성과 병렬성 효과를 반영한 스케일링 법칙을 도출했습니다.

핵심 포인트

  • Transformer 학습의 에너지 소비 예측 모델 제시
  • Roofline 모델 기반의 하드웨어 효율성 계수 도입
  • 텐서 및 데이터 병렬성 효과를 반영한 스케일링 법칙 도출
  • 다중 GPU 환경에서의 지속 가능한 시스템 설계 지원

Transformer 기반 모델은 현대 자연어 처리 (NLP)의 근간을 이루고 있지만, 계산 및 에너지 비용이 급격히 증가하고 있습니다. 모델 크기와 병렬성(Parallelism)이 모두 확장됨에 따라, 지속 가능하고 비용을 고려한 시스템 설계를 위해 에너지 소비를 정확하게 예측하는 것이 매우 중요해졌습니다. 본 논문에서는 다중 GPU 환경에서 Transformer 학습의 에너지 소비를 모델링하기 위한 프레임워크를 제시합니다. BERT 모델의 통제된 아키텍처 스윕(Architectural sweeps)을 사용하여, 측정된 에너지와 계산(Compute), 메모리 트래픽(Memory traffic), 그리고 하드웨어 효율성 (Hardware efficiency)에 대한 경량 프록시(Proxies) 간의 관계를 규명합니다. Roofline 모델에서 영감을 얻은 우리의 접근 방식은 텐서 병렬성 (Tensor parallelism)과 완전 샤딩 데이터 병렬성 (Fully sharded data parallelism)의 효과를 포착하는 속도 향상 기반의 하드웨어 효율성 계수를 포함합니다. 우리는 이질적인 구성 (Heterogeneous configurations) 전반에 걸쳐 학습 에너지를 정확하게 예측하는 스케일링 법칙 (Scaling law) 모델을 도출합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0