Cli-Modelarium 0.1.4: Qwen 및 GLM을 포함하여 이제 10개의 LLM 제공업체 지원
요약
Cli-Modelarium 0.1.4 버전이 출시되어 Qwen과 GLM을 포함한 총 10개의 LLM 제공업체를 지원합니다. 이 도구는 다양한 모델의 성능, 비용, 지연 시간을 명령줄에서 즉시 비교하고 통계적 검증을 수행할 수 있게 해줍니다.
핵심 포인트
- Qwen 및 GLM 추가로 총 10개의 클라우드 모델 제공업체 지원
- 모델별 비용, 지연 시간 및 통계적 유의성 검정 기능 제공
- 단일 명령어로 오픈 웨이트 모델과 프런티어 모델 비교 가능
- API 비용 방지를 위한 --max-cost 플래그 지원
빠른 릴리스 노트입니다. Cli-Modelarium 0.1.4가 방금 출시되었으며, 주요 소식은 두 개의 새로운 제공업체(providers) 추가입니다.
두 개의 새로운 제공업체, 총 10개
이제 Alibaba의 Qwen 모델 (DashScope를 통해)과 Z.AI의 GLM 모델을 OpenAI, Anthropic, Google, xAI, DeepSeek, Mistral, Groq, OpenRouter 및 로컬 모델과 함께 나란히 비교할 수 있습니다. 이로써 총 10개의 클라우드 제공업체를 지원하게 되었습니다.
자신만의 프롬프트로 오픈 웨이트 (open-weight) 모델을 프런티어 (frontier) 모델과 벤치마킹하고 싶었다면, 이제 단 하나의 명령어로 가능합니다:
pip install --upgrade cli-modelarium
cli-modelarium "Write a haiku about garbage collection in programming" \
...
모델별 비용 및 지연 시간 (latency)이 포함된 나란히 비교하는 표를 확인할 수 있습니다. --runs 옵션을 1보다 크게 설정하면 테스트를 반복하고 통계 테스트를 자동으로 실행하므로, 단순히 하나의 출력을 눈으로 훑어보는 대신 노이즈와 실제 차이를 구분할 수 있습니다. --max-cost 플래그는 상한선 역할을 하여, 여러 모델을 실행할 때 API 비용이 예상치 못하게 발생하는 것을 방지합니다.
이번 릴리스의 다른 변경 사항
- 모든 가격 정보를 현재 제공업체 요율로 갱신
- 모델 그룹(all-flagship, all-budget, all-fast, all-cheap)에 Qwen 및 GLM 추가, 또한 GLM을 all-reasoning에 추가하여 그룹별로 불러올 수 있도록 함
- Python 3.14 지원 추가
- 제공업체 이름 변경을 추적하기 위한 몇 가지 모델 ID 업데이트
처음 오셨나요?
Cli-Modelarium은 실제 통계(부트스트랩 신뢰 구간 (bootstrap confidence intervals), 대응 표본 유의성 검정 (paired significance tests), McNemar 검정 (McNemar's)), CI(지속적 통합) 준비가 된 어설션 (assertions), 환각 탐지 (hallucination detection), LLM-as-judge 점수 산정 및 비용 추적 기능을 갖추고 LLM 출력을 나란히 비교하는 커맨드 라인 도구입니다. 단 한 번의 pip 설치로 인프라 구축 없이 사용 가능하며, Apache 2.0 라이선스를 따릅니다.
- GitHub: https://github.com/lavellehatcherjr/cli-modelarium
- PyPI: https://pypi.org/project/cli-modelarium/
새로운 제공업체들이 귀하의 사용 사례에 어떻게 작동하는지 듣고 싶습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기