r/LocalLLaMA분석2026. 05. 05. 04:36

1tk/s 에서 20~100tk/s 로: 거대 모델이 등장한 때다

요약

최근 하드웨어 발전 덕분에 과거에는 느리게 실행되던 거대 언어 모델(LLM)들을 훨씬 빠르고 효율적으로 로컬 환경에서 구동할 수 있게 되었습니다. 이제는 Kimik2.6, DeepSeekV4Flash 등 최신 초대형 모델들을 30~100tk/sec의 속도로 구동하며 이전 세대의 거대 모델 성능을 압도합니다. 이러한 발전은 AGI(범용 인공지능)가 상상했던 것보다 훨씬 빠르게 현실화되고 있음을 보여줍니다.

핵심 포인트

하드웨어 및 최적화 기술의 발전으로 LLM 구동 속도가 획기적으로 향상됨 (1.2tk/sec $\rightarrow$ 30~100tk/sec).
최신 초대형 모델들(예: Kimik2.6, DeepSeekV4Flash)을 로컬 환경에서 고속으로 구동할 수 있게 되었음.
거대 AI의 발전 속도가 예상보다 빠르며, 일반 사용자도 비교적 저렴한 비용으로 강력한 LLM을 집에서 실행 가능함.
지속적인 실험과 탐구가 기술 발전을 이끌고 있으며, 이는 AGI 시대에 대한 기대감을 높이고 있음.

https://www.reddit.com/r/LocalLLaMA/comments/1eb6to7/llama_405b_q4_k_m_quantization_running_locally/

https://www.reddit.com/r/LocalLLaMA/comments/1ebbgkr/llama_31_405b_q5_k_m_running_on_amd_epyc_9374f/

2 년 전 Llama405b q4 를 1.2tk/sec 로 실행하는 것은 놀라운 일이었다.

이 같은 하드웨어는 이제 Kimik2.6, DeepSeekV4Flash, Minimax2.7, Step3.5Flash, Qwen3.5-397B 와 같은 거대한 최신 모델 (HUGE state of the art models) 을 30tk~100tk/sec 로 실행할 수 있으며 Llama405b 를 압도한다. :-/

저는 사람들이 왜 1.2/tk/s 에서 Llama405b 를 실행하고 싶은지 물었을 때, 저는 AGI 가 왔을 때 대비하기 위해 그 옵션이 필요하다고 답했습니다. 만약 제가 자신의 초거대 AI 를 1tk/sec 로 실행할 수 있다면 좋겠다는 생각이었다면 더 이상 상상도 할 수 없었을 것입니다. 실제로는 우리가 상상했던 것보다 훨씬 좋았습니다. 우리는 이제 거대한 AGI 가 있고, 저렴하고 빠르게 실행할 수 있습니다.

거대 모델을 제외하고, 몇 백 달러만 있으면 집에서 Qwen3.6-36B 를 50tk/sec 로 실행할 수 있습니다. 동료 로컬 Llama 애호가 여러분에게, 계속 무작위하게 해보세요, 계속 실험하세요, 비방하는 자들을 무시하세요. 모든 "바보", "시간 낭비" 실험들이 결실을 맺고 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

1tk/s 에서 20~100tk/s 로: 거대 모델이 등장한 때다

요약

핵심 포인트

댓글