Reddit요약2026. 05. 06. 02:39

백엔드 생성 기능 호출 벤치마크 (GLM vs Qwen vs DeepSeek)

요약

본 기사는 백엔드 생성 및 함수 호출 능력을 측정하는 공식 벤치마크 결과를 공유하며, 최신 LLM(GPT-5.4 등)과 로컬 모델 간의 성능 격차가 크게 줄었음을 보여줍니다. 특히 Qwen3.5 계열 모델이 강력한 성능을 보였으며, 향후에는 프론트엔드 자동화까지 포함하는 통합 벤치마크가 진행될 예정입니다. 또한, 비용 문제로 인해 다음 라운드부터는 저렴하거나 로컬 환경에서 실행 가능한 소형 모델들 위주로 비교 범위가 축소될 것이라고 예고합니다.

핵심 포인트

최신 LLM과 로컬 LLM 간의 백엔드 생성 및 함수 호출 성능 격차가 거의 해소되었다.
Qwen3.5 계열 모델(특히 27B)이 강력한 성능을 보여주었으며, 일부 MoE 변형보다 우수한 결과를 보였다.
벤치마크 비용 문제로 인해 다음 라운드부터는 저렴하거나 로컬 환경에서 실행 가능한 소형 모델들 위주로 비교가 진행될 예정이다.
향후 2~3개월 내에 백엔드와 자동 생성 프론트엔드를 통합한 End-to-End(E2E) 개발 벤치마크가 추가될 예정이다.

상세한 기사: https://autobe.dev/articles/local-llm-benchmark-about-backend-generation.html

5 개월 전, "백엔드 코딩 에이전트의 hardcore function calling benchmark"(https://www.reddit.com/r/LocalLLaMA/comments/1p2ziil/hardcore_function_calling_benchmark_in_backend/)라는 게시글을 작성했습니다. 그 글에서 언급한 바와 같이, 이는 통제되지 않은 측정치였으며, 각 모델이 복잡한 recursive-union AST schemas 를 채울 수 있는지 여부를 보여주는 데는 유용했지만, 엄밀한 의미의 벤치마크라고 보기에는 부족했습니다.

이 게시물은 통제된 변수와 실제 점수 평가 기준을 포함한 공식 버전입니다.

공유할 만한 3 가지 발견

function calling harness 는 백엔드 생성에서 프론티어 모델과 로컬 모델 간의 격차를 사실상 폐쇄했습니다. gpt-5.4 의 DB/API 설계는 qwen3.5-35b-a3b 와 거의 동일합니다. claude-sonnet-4.6 의 논리는 qwen3.5-27b 와 같습니다.
이것이 프론티어 모델을 포함하는 마지막 라운드입니다. 매월 실행하는 것은 오픈소스 프로젝트로서는 genuinely 너무 비쌉니다 — 한 번의 shopping-mall 실행은 ~200–300M 토큰 (~GPT 5.5 가격 기준 $1,000–$1,500 모델당) 입니다. 다음 달부터 비교 세트는 OpenRouter 엔드포인트에서 $0.25/M 미만이거나 64GB unified-memory 노트북에 들어갈 수 있는 모델로 제한됩니다.
**프론트엔드 자동화가 2~3 개월 후 벤치마크에 합류합니다.** AutoBe 가 이미 방출하는 SDK 는 작동 가능한 AI 구축 프론트엔드를 end-to-end 구동하기에 충분합니다 (시각적 요소는 다소 생략되었으나 모든 기능이 작동함). 6 월/7 월 라운드는 백엔드 + 자동 생성 프론트엔드를 함께 다룰 예정입니다.

여전히 조사 중인 3 가지 역전

몇 가지 결과는 아직 어떻게 해석해야 할지 확신이 없습니다:

openai/gpt-5.4 는 오히려 자신의 mini 형제보다 점수가 낮습니다.
deepseek-v4-pro 는 qwen3.5-35b-a3b 보다 한 단계 낮게 위치하며, 자신의 Flash 형제와 거의 구별되지 않습니다.
Qwen 가족 내에서 dense 27B 가 모든 MoE 변형을 압도합니다 — 심지어 397B-A17B 도 마찬가지입니다.

언제나 주장하기 전에 조사하고 싶은 두 가지 해석:

CoT-compliance phenomenon — 더 큰 / 프론티어 등급 모델들이 절차적 지시를 skip 하는 경향이 있으며, 우리의 harness 가 이를 hard하게 강제합니다.
벤치마크 결함 — n=4 참조 프로젝트, 좁은 점수 대역, 우리 자신의 harness 가 우리 자신의 파이프라인을 점수화합니다.

더 깊이 조사한 후 미래 라운드에서 다시 보고하겠습니다.

백엔드 생성 기능 호출 벤치마크 (GLM vs Qwen vs DeepSeek)

요약

핵심 포인트

공유할 만한 3 가지 발견

여전히 조사 중인 3 가지 역전

추천 환영

댓글