Large Transformer Model Inference Optimization

요약

대규모 트랜스포머 모델은 다양한 작업에서 최고 성능을 보여주지만, 그 강력함만큼이나 높은 추론 비용(시간 및 메모리)이 큰 문제입니다. 이로 인해 실제 산업 환경에 대규모 트랜스포머를 광범위하게 적용하는 데 병목 현상이 발생하고 있습니다. 본문은 이러한 추론의 어려움의 근본적인 원인들을 탐구할 것임을 예고합니다.

핵심 포인트

대규모 트랜스포머 모델이 현재 AI 분야에서 최고 성능(SoTA)을 달성하는 주력 기술이다.
모델의 강력함에도 불구하고, 추론 과정에서 발생하는 높은 비용(시간 및 메모리)은 실제 산업 적용의 주요 장애물이다.
추론 비용 증가는 단순히 모델 크기 증가 외에 다른 핵심 요인들에 의해 기여된다.

[2023-01-24 업데이트: Distillation 에 대한 소단락 추가] 현재 대규모 트랜스포머 모델이 주류를 이루며 다양한 작업에서 최상위 (SoTA) 결과를 창출하고 있습니다. 이들은 강력하지만 훈련과 사용 비용이 매우 큽니다. 추론 비용이 시간과 메모리 측면에서 극도로 높아, 강력한 트랜스포머를 대규모로 실제 세계 작업을 해결하는 데 채택하는 데 큰 병목 현상이 됩니다. 왜 대규모 트랜스포머 모델의 추론이 어려운 것일까요? SoTA 모델의 크기 증가 외에도 추론에 기여하는 주요 요인은 두 가지입니다 (Pope et al. 2022):

AI 자동 생성 콘텐츠

원문 바로가기

Large Transformer Model Inference Optimization

요약

핵심 포인트

댓글