본문으로 건너뛰기

© 2026 Molayo

HuggingFace헤드라인2026. 05. 04. 15:42

Palmyra-mini 가족 소개: 강력하고 경량화되어 있으며 추론 준비 완료!

요약

WRITER 팀은 강력하고 경량화된 세 가지 오픈 소스 모델인 Palmyra-mini 가족을 출시했습니다. 이 모델들은 1.5B~1.7B의 작은 크기에도 불구하고 높은 성능을 자랑하며, 특히 복잡한 추론 능력을 강화한 전용 변형(thinking-a, thinking-b)이 포함되어 있습니다. 개발자들은 GGUF 및 MLX 양자화 버전을 제공받아 다양한 환경에서 효율적인 추론에 활용할 수 있으며, 이 모델들은 vLLM 등 주요 추론 프레임워크와 호환됩니다.

핵심 포인트

  • Palmyra-mini는 1.5B~1.7B의 경량화된 크기로 높은 성능을 제공하는 오픈 소스 LLM 가족입니다.
  • 추론 능력을 극대화한 'thinking' 변형 모델(a, b)이 포함되어 있으며, 이들은 Chain of Thought (CoT) 방식으로 훈련되었습니다.
  • 'thinking-b'는 AIME24, MMLU_PRO 등 여러 주요 벤치마크에서 가장 높은 평균 점수를 기록하며 강력한 추론 능력을 입증했습니다.
  • GGUF 및 MLX 양자화 옵션을 제공하여 다양한 하드웨어 환경에서의 효율적인 배포가 가능합니다.
  • 모든 모델이 Qwen 아키텍처 기반으로, vLLM, SGLang 등 주요 LLM 추론 프레임워크에서 실행할 수 있습니다.

WRITER 팀은 Palmyra-mini 가족의 세 가지 새로운 오픈 모델 출시를 기쁘게 알립니다. 이 모델들은 크기에 비해 강력하고 경량화되었으며 높은 성능을 제공하도록 설계되었습니다 (1.5B 에서 1.7B), 효율적인 추론을 통해 다양한 애플리케이션에 이상적입니다.

  • palmyra-mini: 강력한, 경량화된 비추론 기반 모델.
  • palmyra-mini-thinking-a: 복잡한 추론 및 논리를 최적화한 전용 변형.
  • palmyra-mini-thinking-b: 수학 방정식 및 추론에서 뛰어난 성능을 발휘하는 또 다른 전용 변형.

"thinking" 모델은 Chain of Thought (CoT) 접근법으로 훈련되었으며, 이는 추론 능력을 향상시켰습니다. 커뮤니티가 이 새로운 모델로 무엇을 구축할지 기대합니다!

GGUF 와 MLX 양자화도 편의를 위해 제공됩니다:

palmyra-mini: 비추론 개선된 기반 모델로, Big Bench Hard (get-answer)(exact_match) 에서 52.6% 점수를 달성하여 다양한 생성 작업에 훌륭한 종합형입니다.

palmyra-mini-thinking-a: 복잡한 논리적 도전의 필수품입니다. Chain of Thought (CoT) 접근법으로 훈련되었으며, GSM8K (strict match) 에서 인상적인 82.87% 점수를 달성하여 강력한 추론 능력을 입증했습니다. 출시된 다른 모델들 중 벤치마크에 대한 가장 높은 종합 평균 점수를 가지고 있습니다.

palmyra-mini-thinking-b: 문제 해결의 한계를 넓히는 이 모델은 AMC23 에서 견고한 92.5% 점수를 받았습니다. "think"하여 어려운 작업을 처리할 수 있는 모델을 필요로 할 때 훌륭한 선택입니다. 출시된 다른 모델들 중 벤치마크 AIME24, AIME25, GPQA, HMMT25, HLE, MMLU_PRO, MATH500, LCB 에 대한 가장 높은 평균 벤치마크 점수를 가지고 있습니다.

우리는 pass@1(avg-of-1) 과 pass@1(avg-of-64) 결과를 모두 출시합니다. 벤치마킹 방법론 (샘플링 파라미터: 온도 0.6, top_p 0.95): Pass@1(avg-of-1) 점수는 lm_eval 프레임워크를 사용하여 수집되었습니다. AIME24 에서 HMMT25 는 lighteval 프레임워크를 사용하여 수집되었습니다.

Pass@1(avg-of-64) 점수는 nemoskills 프레임워크를 사용하여 수집되었습니다.

모든 기반 모델이 Qwen 아키텍처이므로 추론은 vLLM, SGLang, TRTLLM, TGI 와 같은 인기 있는 추론 프레임워크에서 실행 가능합니다.

palmyra-thinking-b 의 경우 기반 모델은 https://huggingface.co/nvidia/OpenReasoning-Nemotron-1.5B 입니다. 우리는 RL (강화학습) 미세 조정을 수행하여 성능이 개선될 수 있음을 관찰했습니다. 강화학습은 단일 샷 정확도 (pass@1) 를 향상시켰지만, 샘플링 다양성을 감소시켜 SFT 기반 모델에 비해 majority@64 성능에서 하락을 초래했습니다. 이는 정확도와 다양성 사이의 트레이드 오프를 강조하며, 우리는 이러한 발견에 대한 투명성이 모드 붕괴, 소모델 성능 및 기타 분야에서 추가 연구를 자극할 것이라고 믿습니다.

이 작업을 통해 우리는 소수 파라미터 모델로 달성 가능한 한계를 넓히려 노력했으며, 추론 효율성을 희생하지 않고 성능 품질을 유지하면서 커뮤니티가 어떻게 계속 발전시킬지 기대합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0