본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 18. 11:10

난이도 높은 HTML 데이터 추출 작업에 대해 2B에서 35B 크기의 모델들을 벤치마킹했습니다

요약

HTML 데이터 추출 작업에서 2B~35B 크기의 소형 모델들을 벤치마킹한 결과입니다. Qwen3.6 27B가 가장 우수한 성능을 보였으며, Gemma4 e2b 및 e4b 모델이 대형 모델보다 뛰어난 성과를 기록했습니다.

핵심 포인트

  • Qwen3.6 27B 모델이 데이터 추출 작업에서 압도적 성능 기록
  • Gemma4 e2b 및 e4b 모델이 소형임에도 뛰어난 추출 능력 입증
  • MoE(Mixture of Experts) 모델들은 해당 작업에서 낮은 성능을 보임
  • 특정 작업 목적에 맞는 모델 벤치마킹의 중요성 강조

저는 웹 스크래핑 분석(web scraping analytics)을 수행하는 Blazed Deals라는 웹사이트를 운영하고 있으며, 분석의 다양성을 높이기 위해 한 번에 약 15개의 LLM을 교체하며 사용하는 데이터 파이프라인을 잘 조정해 두었습니다.

어제 저는 파이프라인의 주요 데이터 추출(data extraction) 작업 중 29개의 어려운 페이지를 대상으로 몇몇 소형 모델들을 테스트해 보기로 했습니다. 작년에는 200B급 모델들을 사용했는데 간신히 기준을 충족하는 수준이었지만, 보시다시피 이제는 동일한 프로세스가 훨씬 더 작은 모델들로도 작동할 수 있습니다. 가장 놀라운 모델은 gemma4 e2b(특히)와 e4b입니다. 이 모델들은 이 작업에서 훨씬 더 큰 모델들보다 뛰어난 성능을 보여주는 것으로 보아, 데이터 추출을 위해 튜닝된 것으로 보입니다. Qwen3.6 27B는 이 작업에서 가장 우수한 모델로서 압도적인 선두를 달렸습니다. 실제로 300M에서 2B 범위의 훨씬 더 작은 모델들도 다양하게 테스트해 보았으나, 모두 완전히 실패했기 때문에 차트에는 포함하지 않았습니다.

차트 해석 방법: Pass %는 분석 종료 시 29개 페이지 중 검증(validation)을 통과한 페이지의 비율입니다. JSON %는 유효한 JSON을 생성한 비율입니다. 나머지 그래프들은 분석의 다른 필드들을 나타냅니다.

양자화(quant) 수준이 공정한 비교를 제시하지 못한다는 점에 대해 의견을 주시기 전에, 저도 그 점을 충분히 이해하고 있습니다. 하지만 이 벤치마크를 완료하는 데 많은 시간이 소요되었고, 어젯밤 codex가 해당 양자화 수준을 선택하면서 순조롭게 진행되었습니다. 다시 테스트할 시간이 없으므로, 그 측면은 감안해서 봐주시기 바랍니다.

gemma4 e2b와 e4b가 이 데이터 추출 작업에서 눈에 띄는 성과를 보인 것 외에도, 놀라웠던 점은 모든 MoE(Mixture of Experts) 모델들의 점수가 매우 낮았다는 것, 즉 대부분 형편없는 수준이었다는 점입니다. Qwen3.5 35B의 사후 학습(post train) 모델인 Nex N2가 궁금하여 테스트해 보았는데, 베이스 모델보다는 상당히 나은 점수를 기록했다는 점이 흥미로웠지만, 소형 밀집(dense) 모델들과 비교했을 때 특별히 뛰어나지는 않았습니다. 이 벤치마크는 최선의 결과를 얻기 위해 자신의 작업에 맞춰 모델을 벤치마킹하는 것이 얼마나 중요한지를 보여주는 좋은 사례입니다. 결과가 예상과 다를 수 있기 때문입니다.
submitted by /u/1ncehost
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0