본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 22. 21:24

Ling and Ring 2.6 기술 보고서: 조 단위 파라미터 규모에서의 효율적이고 즉각적인 에이전트 지능 (Agentic

요약

Ling and Ring 2.6 기술 보고서를 통해 조 단위 파라미터 규모에서도 효율적이고 즉각적인 에이전트 지능을 구현하는 기술을 소개합니다. Ling-2.6-flash(100B) 모델 출시와 함께 Ling-mini-2.0의 압도적인 추론 속도를 강조합니다.

핵심 포인트

  • Ling-2.6-1T 및 Ling-2.6-flash 베이스 모델 출시
  • Ling-mini-2.0-IQ4_XS 모델의 매우 빠른 추론 속도(160 t/s)
  • 8GB VRAM 및 CPU 전용 환경에서의 높은 효율성 입증
  • 조 단위 파라미터 규모에서의 에이전트 지능 구현 기술

arXiv : https://arxiv.org/abs/2606.15079
Full Paper : https://arxiv.org/pdf/2606.15079
HuggingFace : https://huggingface.co/inclusionAI/models?sort=created
(이번 달에 Ling-2.6-1T 및 Ling-2.6-flash 모두를 위한 베이스 모델 (base models)이 출시되었습니다)

Ling-mini 2.6 버전도 출시되었으면 좋았을 텐데 아쉽네요 :( '가난한 GPU 클럽 (Poor GPU Club)'에게는 유용할 텐데요. (적어도 Ling-2.6-flash(100B)는 출시되었으니, 24/32GB VRAM 사용자들은 Q4를 즐길 수 있을 것입니다)
16B-A1.4B 규모인 Ling-mini-2.0에 대해 이야기하고 있었습니다. 더 빠른 모델이죠. 지난 1월에 스레드를 게시했습니다. bailingmoe - Ling(16B) 모델들의 속도가 이제 더 좋아졌습니다.

위 스레드의 요약 (TLDR):

  • Ling-mini-2.0-IQ4_XS - 160 t/s (8GB VRAM 환경) - 중간 크기 모델에서 가장 빠른 t/s를 얻기 위해 그들로부터 30-50B 모델이 나왔으면 좋겠습니다. 단순한 계산에 따르면, 동일한 8GB VRAM에서 30B Q4 모델로 80 t/s를 얻을 수 있을 것입니다.
  • Ling-mini-2.0-IQ4_XS - 50-70 t/s (CPU 전용 추론 (CPU-only inference) - 32GB RAM 환경)
    다른 어떤 모델도 이렇게 빠른 t/s를 제공하지 않았습니다. 지금까지 CPU 전용 추론에서 이렇게 빠른 t/s가 나온다는 사실에 놀랐습니다. 심지어 1-bit 버전 모델들보다 더 빠릅니다.
    submitted by /u/pmttyji
    [link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0