8개의 로컬 모델을 대상으로 고전(중세 유럽) 판타지 RP/에이전틱 벤치마크를 실행한 결과: Qwen3.6-27B가 크기 대비 뛰어난 성능을
요약
8개의 로컬 모델을 대상으로 판타지 RP 및 에이전틱 능력을 평가한 벤치마크 결과입니다. gemma-4-31B가 가장 높은 합격률을 기록했으며, 모델별로 특정 하위 작업에서 성능 저하가 발생하는 불균형 현상이 관찰되었습니다.
핵심 포인트
- gemma-4-31B가 87%의 합격률로 벤치마크 1위 달성
- Qwen3.6-27B가 82%로 그 뒤를 이어 높은 성능 기록
- 전체 합격률과 달리 특정 하위 항목에서 급격한 성능 저하 발생
- 퀘스트 완료 능력과 NPC 사고/요약 능력 간의 불균형 확인
벤치마크 스위트(퀘스트 완료, 장면 결말, 아이템/시간 추적, 캐릭터 탐지, 스토리텔링, 초안 작성)를 구성하여 이곳에서 자주 언급되는 8개의 모델을 대상으로 실행했습니다. 외부 LLM 채점기(LLM grader)를 사용하여 판정하였으며, N은 카테고리마다 다릅니다(차트에 표시됨).
전체 합격률(Overall pass rates): gemma-4-31B가 87%로 1위를 차지했고, Qwen3.6-27B가 82%로 그 뒤를 바짝 쫓았습니다. 그 후 gemma-4-12B(80%) 이후로는 55-70% 범위의 더 작거나 성능이 낮은 모델들로 급격히 떨어졌습니다. 하지만 뭐, 예상했던 결과입니다.
저에게 흥미로웠던 부분은 최상위 결과가 아니라 하위 점수(sub-scores)가 얼마나 불균형한가 하는 점입니다. "퀘스트 완료"에서는 괜찮아 보이는 일부 모델들이 "NPC 생각"이나 "퀘스트 요약"에서는 무너지는 모습을 보였는데, 이는 전체 %만 봐서는 절대 나타나지 않는 현상입니다. 다른 분들도 본인의 평가(evals)에서 이와 같은 카테고리 수준의 급격한 성능 저하(cliffs)를 경험한 적이 있는지 궁금합니다.
submitted by /u/UsedMorning9886
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기