Transformer를 다루기에 제가 할애할 수 있는 것은 아주 작은 규모뿐입니다
요약
파라미터가 1,000만 개 이하인 소규모 모델의 효율성을 높이기 위해 Attention과 FFN을 결합한 새로운 아키텍처 'Silia'를 제안합니다. 기존 GPT-2 아키텍처 대비 훨씬 적은 파라미터로도 대등한 성능을 달성할 수 있음을 보여줍니다.
핵심 포인트
- Attention의 동적 특성과 FFN의 비선형성을 결합하여 파라미터 효율성 극대화
- 10M 미만 소규모 모델 환경에서의 Transformer 아키텍처 최적화 연구
- Silia 아키텍처는 GPT-2 대비 적은 파라미터로 유사한 손실 및 생성 품질 달성
안녕하세요! 저는 인도에서 온 학생이며, 이것은 제가 발표한 첫 번째 논문입니다.
저는 성능을 희생하지 않으면서 파라미터(parameters) 수를 줄이기 위해, 특히 파라미터가 10M(1,000만 개) 이하인 경우에 Attention(어텐션)과 FFN(Feed-Forward Network, 피드포워드 네트워크)을 함께 결합할 수 있을지 궁금했습니다.
기본적으로 저의 직관은 이렇습니다. Attention은 어떤 정보를 섞을지에 대해 동적(dynamic)이고 영리하지만, 그 정보를 실제로 변환할 수 있는 강력한 비선형성(non-linearity)이 부족합니다. SwiGLU는 강력한 비선형성을 가지고 있지만 정적(static)입니다. 모든 입력에 대해 동일한 가중치를 사용하죠. 따라서 두 가지를 각각 실행하여 파라미터를 낭비하는 대신, FFN의 정적인 선형 행렬(linear matrices)을 동적인 혼합과 강력한 비선형성을 동시에 갖춘 어텐션으로 대체하여 하나의 통합된 연산으로 만들면 어떨까 하는 생각이었습니다.
저는 이 논문을 어떤 수단으로서의 최종 결론으로 취급하지 않습니다. 왜냐하면 저는 매우 오래된 하드웨어를 가지고 있고, Google Colab 구독이 없어서 규모를 키우는 데(scaling up) 도움이 되지 않기 때문입니다. 그래서 저는 이 논문을 제 아이디어의 소개이자, 제가 주어진 규모에서 실행할 수 있었던 실험들로 간주하고 있습니다.
초록(Abstract)을 추가하기 전에, 0.8M 파라미터 모델을 훈련하는 데 제 PC에서 810시간(Google Colab에서는 단 몇 분)이 걸렸고, 4M 모델(Google Colab에서는 훈련을 허용하지 않았던 모델)은 제 PC에서 약 34일이 걸렸다는 점을 말씀드리고 싶습니다. 이것이 제가 논문에서 많은 실험을 수행하지 못한 이유입니다.
초록 (Abstract)
유명한 "Attention Is All You Need" 논문에서 소개된 Transformer(트랜스포머) 신경망 아키텍처는 최근 몇 년 동안 AI 발전의 거대한 물결을 일으켰습니다. Scaled dot-product attention(스케일드 닷 프로덕트 어텐션)은 이전의 RNN(Recurrent Neural Network, 순환 신경망) 기반 모델에는 부족했던, 더 높은 효율성과 품질로 정보를 처리할 수 있게 해줍니다. 하지만 Transformer 기반 모델은 그 나름의 과제를 안고 있으며, 특히 파라미터가 5M 이하인 아주 작은 모델의 파라미터 효율성 측면에서 그렇습니다. 이 정도의 작은 규모에서 Transformer 모델은 본질적으로 실제로 사용해야 하는 것보다 더 많은 파라미터를 사용합니다. 이 1,000만 파라미터 미만의 영역은 타당한 이유들로 인해 연구가 매우 미진한 상태이지만, 저는 그럼에도 불구하고 이를 탐구해보고 싶었습니다.
따라서 본 논문에서 저는 매우 제한적인 파라미터 예산 (parameter budget) 하에서 효율적인 모델링 및 분류 (classification) 작업을 위해 설계된 새로운 트랜스포머 (Transformer) 아키텍처인 Silia를 소개하고자 합니다. 동일한 "기본 (base)" 하이퍼파라미터 (hyperparameters), 학습 데이터 및 연산 예산 (compute budget)을 사용하여 GPT-2 아키텍처 (Andrej Karpathy의 nanoGPT 프로젝트)와 비교하여 학습했을 때, Silia는 훨씬 적은 파라미터로도 대등한 손실 (loss) 및 생성 품질을 달성합니다.
감사합니다 :)
제출자: /u/SrijSriv211
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기