@AlicanKiraz0 손에 건강을 빕니다.본 후 첫 1시간 동안, llama.cpp에서 단일 24 Gb GPU에서 실행하기 위해
요약
이 글은 대규모 언어 모델(LLM)의 효율적인 배포와 최적화 과정을 공유하고 있습니다. 특히, 60GB 크기의 모델을 bf16 변환 및 Q4_K_M 양자화를 거쳐 단일 24GB VRAM GPU에서 실행 가능하도록 줄이는 방법을 설명합니다. 또한, 터키어 금융 추론에 특화된 오픈 소스 LLM인 Mihenk-LLM v2의 출시 소식을 전하며, 이 모델이 금융 분석 및 리스크 관리에 초점을 맞추고 있음을 강조합니다.
핵심 포인트
- 대용량 LLM을 단일 GPU 환경에서 실행하기 위해 양자화(Quantization)와 변환 과정이 필수적이다.
- 모델 크기 최적화는 bf16 변환 및 Q4_K_M과 같은 기술을 통해 달성할 수 있다 (예: 60GB -> 20GB).
- Mihenk-LLM v2는 Qwen3.6-35B-A3B 기반으로, 터키어 금융 도메인에 특화된 SFT(Supervised Fine-Tuning) 모델이다.
- 이 모델은 BIST, 거시경제, 암호화폐 등 다양한 금융 분석 및 리스크 관리 작업에 활용 가능하다.
@AlicanKiraz0 손에 건강을 빕니다.본 후 첫 1시간 동안, llama.cpp에서 단일 24 Gb GPU에서 실행하기 위해 Q4_K_M gguf로 양자화 http:// ettim.Ba 에서 60 Gb 정도였던 모델이 먼저 bf16 gguf 변환 후 Q4_K_M으로 20 Gb로 줄었고 지금은 단일 24 Vram GPU에서 실행됩니다.그 후 OpenAI agent
친구들, 멋진 소식이 있어요 오픈 소스 터키어 금융 추론 모델인 Mihenk-LLM v2가 출시됐어요 이 버전은 Qwen3.6-35B-A3B 기반 모델 위에 터키어 금융, BIST, 거시경제, 암호화폐, 현금 흐름 분석, 포트폴리오 리스크 관리 및 안전한 금융 응답 생성에 초점을 맞춘 SFT 작업으로 준비했어요.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @alicankiraz0 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기