더 큰 LLM 모델은 더 이상 성능을 보장하지 못할 것이다

최근 저는 Adaption Labs의 공동 창립자인 Sara Hooker가 작성한 "On the Death of Scaling(스케일링의 종말에 대하여)"라는 에세이를 접했습니다. 이 에세이에서 Sara는 시장을 선도하기 위해 프런티어 연구소(frontier labs)들이 따르고 있는 단순한 경로의 단점들을 설명합니다. 그녀는 "스케일링이 곧 죽음이다"라는 개념이 어디에서 왔는지, 그리고 다음에 무엇을 고려해야 하는지에 대해 논의합니다.

LLM(대규모 언어 모델)이 AI, 즉 전문가들이 AGI(인공 일반 지능)라고 부르는 것에 도달하기 위한 이상적인 경로로 부상하고 있는 지난 10년 동안, 이 모델들이 그리 정확하지 않다는 사실이 밝혀졌습니다. 모든 LLM 기반 연구소들은 다른 가용한 모델들을 능가하기 위해 더 많은 연산(compute)과 함께 점점 더 많은 가중치(weights)를 추가하는 하나의 무차별적인(brute force) 규칙을 따르고 있으며, 특정 지점까지는 이것이 도움이 되고 있습니다. 더 많은 연산과 데이터를 사용함으로써 LLM은 이전 모델들과 경쟁사들을 능가하고 있습니다. 하지만 이제 지형이 변하고 있습니다. 훨씬 더 작은 최신 모델들(<13B)이 방대한 파라미터(parameters)를 가진 이전 모델들을 능가하고 있다는 사실이 발견되었습니다. 예를 들어, Falcon 180B는 Llama 3 8B, Command R 35B, Gemma 3 27B와 같은 모델들에 의해 쉽게 능가됩니다. 또한, Aya 23 8B와 Aya Expanse 8B는 가중치를 94% 적게 사용하면서도 BLOOM 176B를 능가했습니다.

위의 HuggingFace OpenLLM 리더보드 이미지를 보면, 작은 모델들이 큰 모델들을 크게 앞서고 있으며, 두 경우 모두 성능 정체기(performance plateau, 트랜스포머(transformers)의 성능이 정체기에 도달함에 따라)에 도달했음을 보여줍니다. 따라서 더 큰 크기가 항상 더 나은 성능을 보장하는 것은 아니라는 점이 증명되었습니다.

이토록 방대한 수의 파라미터 뒤에 숨겨진 이유는 무엇인가?

놀랍게도, 거의 모든 초기 LLM 모델들은 파라미터(parameters) 수를 대폭 늘려(10배, 100배 등) 출시되고 있지만, 그토록 방대한 수의 가중치(weights) 뒤에 숨겨진 이유를 명확하게 설명하는 사람은 아무도 없습니다. 우리는 정말로 그렇게 많은 가중치가 필요할까요? 모델의 성능 지표를 오직 크기에만 집중하고 있으며, 크기가 커지면 더 나은 성능이 보장된다고 믿고 있는 것일까요? 널리 채택된 초기 심층 신경망 (deep neural network) 아키텍처 중 하나인 Inception Net (2014년 Google이 제안)은 약 2,300만 개의 가중치만을 가지고 있었습니다. 하지만 오늘날 Qwen3-235B-A22B와 같은 베이스 모델은 2,350억 개의 파라미터를 탑재하고 있습니다.

LLM의 가중치가 증가하기 시작한 것은 LLM 모델 학습에서 이중 하강 (double descent)이라는 기이한 관찰 결과가 나타나면서부터였습니다. 수학적으로는 특정 임계값에 도달한 후 모델이 데이터에 대해 "과적합 (overfit)"되기 시작하며, 이 시점부터 모델의 복잡성을 높이면 성능이 저하됩니다. 그러나 놀라운 관찰 결과에 따르면 신경망은 이러한 현상을 보이지 않았습니다. 이 모델들은 이제 무작위 레이블 (random labels)조차 맞출 수 있을 만큼 충분히 많은 수백만 개의 파라미터를 보유하고 있음에도 불구하고, 많은 작업에서 작은 모델들보다 훨씬 더 나은 성능을 보여줍니다. 이러한 동작은 왜 발생하는지 수학적으로 설명할 수 있는 사람이 아무도 없는 블랙박스 (black box) 상태로 남아 있습니다.

또 다른 관찰 결과는 신경망을 학습시킨 후, 전체 작업의 95%가 소수의 가중치 세트에 의해 수행되는 반면, 나머지는 추가적인 파라미터라는 사실입니다.

하지만 이제 다음과 같은 의문이 제기됩니다. 왜 그렇게 많은 수의 추가적인 파라미터 (parameters)가 필요한 걸까요? 단지 이 몇 세트의 가중치 (weights)만을 학습시켜서 동일한 성능을 달성할 수는 없을까요? 정답은 '아니오'입니다. 이미 학습된 모델과 동일한 성능을 달성하려면, 동일한 수의 가중치를 사용하여 모델을 다시 학습시켜야 한다는 사실이 밝혀졌습니다. 이상하게 들리겠지만 사실입니다. 이러한 동작의 이면에는 연구자들이 사용하는 비효율적이고 최적화되지 않은 학습 메커니즘 (mechanisms) 또는 아키텍처 (architectures)가 있습니다. 따라서 겉보기에는 불필요해 보이는 가중치들이 모델의 핵심적인 부분이 되며, 모델의 크기가 커지는 원인이 됩니다.

심층 신경망 (Deep Neural Networks)

심층 신경망 (Deep Neural Networks), 즉 딥러닝 네트워크 (Deep Learning Networks)는 현재 여러분이 사용하고 있는 모든 LLM 모델의 핵심입니다. 하지만 이들은 믿기지 않을 정도로 비효율적인 학습자입니다. 딥러닝 네트워크는 일반적인 사실은 쉽게 이해할 수 있지만, 희귀한 사실을 동일한 방식으로 이해하지는 못합니다. 본질적으로 모든 딥러닝 네트워크는 데이터에 의존하며, 각 데이터 포인트는 동일한 학습 공간을 할당받습니다. 따라서 일반적인 사실은 풍부한 데이터의 혜택을 받는 반면, 희귀한 사실은 최소한의 공간만을 할당받게 됩니다. 인간의 지능을 모방한다는 근본적인 원칙부터 시작하여, AI는 LLM을 통해 이를 달성하는 데 실패하고 있습니다. 인간은 희귀한 사건을 쉽게 이해할 수 있지만, AI는 그렇지 못합니다. 이를 해결하기 위해 연구자들은 그러한 사건들에 연산 (compute)을 집중하기 시작했습니다 (이는 비용이 많이 드는 과정입니다). 하지만 우리가 알다시피 세상은 불확실성으로 가득 차 있으며

고품질 데이터 (High-quality data)는 더 큰 모델의 연산 (compute)량을 보완할 수 있습니다. 다양한 연구에 따르면, 성능에 영향을 주지 않으면서 학습 데이터셋의 크기를 줄일 수 있다면 학습 시간이 단축되며, 이는 더 적은 연산량이 필요함을 의미합니다. 모델 증류 (model distillation), 사고의 사슬 (chain-of-thought reasoning), 컨텍스트 길이 (context length) 확장, 검색 증강 생성 (retrieval-augmented generation, RAG), 그리고 모델을 인간의 피드백에 맞추는 선호도 학습 (preference training)과 같은 기술들은 무거운 파라미터(weights)나 비용이 많이 드는 장기적인 학습의 필요성을 줄이는 데 도움을 줍니다. 이러한 기술들은 해당 기술들이 적용되지 않은 모델보다 향상된 성능을 보여줍니다.

아키텍처 (Architecture)는 AI 연구의 핵심적인 부분입니다. 프런티어 랩 (frontier labs)들이 새로운 아키텍처를 채택하려는 노력은 확장성 (scalability)의 새로운 패러다임을 열 수 있습니다. Yann LeCun의 월드 모델 (world models)과 같은 새로운 모델 아키텍처가 활용될 수 있겠지만, 이러한 아키텍처 중심의 전환은 필수적인 연구에 따른 막대한 비용, 경쟁사에게 시장 점유율을 잃을 위험을 수반하며, 이를 LLM만큼 사용자들에게 효과적으로 마케팅하기 위한 신중한 실험적 접근 (혁신적인 접근법)을 필요로 합니다.

참고: 적은 연산량으로도 좋은 결과를 얻을 수 있다는 점을 논의했지만, 이것이 AI의 환경적 영향을 줄인다는 의미는 아닙니다. AI 연산으로 인해 발생하는 탄소 발자국 (carbon footprint)은 주로 학습 (training) 때문이 아니라 (학습은 일회적이고 국지적인 과정이므로), AI의 광범위한 사용으로 인해 발생합니다. AI 사용자 수가 증가함에 따라 탄소 발자국 또한 증가할 것입니다. 이는 연구 수준의 문제가 아니라 애플리케이션 수준의 문제입니다.

결론

Sara Hooker의 에세이와 Hugging Face ML Club에서 열린 행사에 대한 저의 이해를 설명한 이 블로그를 읽어주셔서 감사합니다. 저의 관점을 추가하여 텍스트를 단순화하고 정렬하고자 노력했습니다. 만약 블로그에서 모순되는 점이나 잘못된 주장을 발견하신다면 저에게 알려주세요. 피드백은 언제나 환영합니다.

다시 한번 감사드립니다 !!!

추가 학습을 위해 참고할 자료:

더 큰 LLM 모델은 더 이상 성능을 보장하지 못할 것이다

요약

핵심 포인트

이토록 방대한 수의 파라미터 뒤에 숨겨진 이유는 무엇인가?

심층 신경망 (Deep Neural Networks)

결론

댓글