arXiv논문2026. 06. 24. 10:11

대규모 언어 모델 (LLM) 스케일링 지수의 작음에 대하여

요약

LLM 스케일링 지수가 에너지 측면에서 지속 불가능한 이유를 분석합니다. 데이터의 한계로 인한 수치적 편향 문제를 지적하며, 유체 난류 모델을 통해 데이터의 매끄러움이 스케일링 지수에 미치는 영향을 논의합니다.

핵심 포인트

LLM 스케일링 지수의 에너지 지속 불가능성 논의
수치적 편향(pedestal effect)이 해결책이 될 수 없음을 증명
유체 난류 모델을 통한 데이터 매끄러움과 스케일링의 관계 분석

우리는 현재 대규모 언어 모델 (LLM) 애플리케이션의 스케일링 지수 (scaling exponents)가 에너지 자원 측면에서 지속 불가능한 체제를 나타내는 이유에 대해 논의합니다. 나아가, 이러한 지수의 작음을 무한한 데이터의 한계에서 손실 함수 (loss function)의 0이 아닌 값을 무시함으로써 발생하는 수치적 편향("pedestal effect") 때문이라고 돌리는 것이 지속 불가능성 문제를 해결하지 못한다는 점을 보여줍니다. 마지막으로, 유체 난류 (fluid turbulence)의 현상론적 모델과의 유추를 바탕으로 데이터의 매끄러움 (roughness)이 스케일링 지수에 미치는 영향에 대해 논평합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델 (LLM) 스케일링 지수의 작음에 대하여

요약

핵심 포인트

댓글