8개의 로컬 모델을 대상으로 고전(중세 유럽) 판타지 RP/에이전틱 벤치마크를 실행한 결과: Qwen3.6-27B가 크기 대비 뛰어난 성능을

벤치마크 스위트(퀘스트 완료, 장면 결말, 아이템/시간 추적, 캐릭터 탐지, 스토리텔링, 초안 작성)를 구성하여 이곳에서 자주 언급되는 8개의 모델을 대상으로 실행했습니다. 외부 LLM 채점기(LLM grader)를 사용하여 판정하였으며, N은 카테고리마다 다릅니다(차트에 표시됨).

전체 합격률(Overall pass rates): gemma-4-31B가 87%로 1위를 차지했고, Qwen3.6-27B가 82%로 그 뒤를 바짝 쫓았습니다. 그 후 gemma-4-12B(80%) 이후로는 55-70% 범위의 더 작거나 성능이 낮은 모델들로 급격히 떨어졌습니다. 하지만 뭐, 예상했던 결과입니다.

저에게 흥미로웠던 부분은 최상위 결과가 아니라 하위 점수(sub-scores)가 얼마나 불균형한가 하는 점입니다. "퀘스트 완료"에서는 괜찮아 보이는 일부 모델들이 "NPC 생각"이나 "퀘스트 요약"에서는 무너지는 모습을 보였는데, 이는 전체 %만 봐서는 절대 나타나지 않는 현상입니다. 다른 분들도 본인의 평가(evals)에서 이와 같은 카테고리 수준의 급격한 성능 저하(cliffs)를 경험한 적이 있는지 궁금합니다.
submitted by /u/UsedMorning9886
[link] [comments]

Insights

8개의 로컬 모델을 대상으로 고전(중세 유럽) 판타지 RP/에이전틱 벤치마크를 실행한 결과: Qwen3.6-27B가 크기 대비 뛰어난 성능을

요약

핵심 포인트

댓글

1인 Micro-SaaS 창업자를 위한 AI 기반 이탈 분석 및 고객 복귀(Win-back) 초안 작성

Gemma: Google의 오픈 모델을 위한 개발자 가이드

채팅을 넘어: AI 에이전트와 MCP가 개발자에게 가져올 차세대 변화인 이유

코딩 에이전트에게 원시 자격 증명(raw credentials)을 제공하는 것을 중단하세요

Gemma: Google의 오픈 모델을 위한 개발자 가이드

채팅을 넘어: AI 에이전트와 MCP가 개발자에게 가져올 차세대 변화인 이유

코딩 에이전트에게 원시 자격 증명(raw credentials)을 제공하는 것을 중단하세요