난이도 높은 HTML 데이터 추출 작업에 대해 2B에서 35B 크기의 모델들을 벤치마킹했습니다

저는 웹 스크래핑 분석(web scraping analytics)을 수행하는 Blazed Deals라는 웹사이트를 운영하고 있으며, 분석의 다양성을 높이기 위해 한 번에 약 15개의 LLM을 교체하며 사용하는 데이터 파이프라인을 잘 조정해 두었습니다.

어제 저는 파이프라인의 주요 데이터 추출(data extraction) 작업 중 29개의 어려운 페이지를 대상으로 몇몇 소형 모델들을 테스트해 보기로 했습니다. 작년에는 200B급 모델들을 사용했는데 간신히 기준을 충족하는 수준이었지만, 보시다시피 이제는 동일한 프로세스가 훨씬 더 작은 모델들로도 작동할 수 있습니다. 가장 놀라운 모델은 gemma4 e2b(특히)와 e4b입니다. 이 모델들은 이 작업에서 훨씬 더 큰 모델들보다 뛰어난 성능을 보여주는 것으로 보아, 데이터 추출을 위해 튜닝된 것으로 보입니다. Qwen3.6 27B는 이 작업에서 가장 우수한 모델로서 압도적인 선두를 달렸습니다. 실제로 300M에서 2B 범위의 훨씬 더 작은 모델들도 다양하게 테스트해 보았으나, 모두 완전히 실패했기 때문에 차트에는 포함하지 않았습니다.

차트 해석 방법: Pass %는 분석 종료 시 29개 페이지 중 검증(validation)을 통과한 페이지의 비율입니다. JSON %는 유효한 JSON을 생성한 비율입니다. 나머지 그래프들은 분석의 다른 필드들을 나타냅니다.

양자화(quant) 수준이 공정한 비교를 제시하지 못한다는 점에 대해 의견을 주시기 전에, 저도 그 점을 충분히 이해하고 있습니다. 하지만 이 벤치마크를 완료하는 데 많은 시간이 소요되었고, 어젯밤 codex가 해당 양자화 수준을 선택하면서 순조롭게 진행되었습니다. 다시 테스트할 시간이 없으므로, 그 측면은 감안해서 봐주시기 바랍니다.

gemma4 e2b와 e4b가 이 데이터 추출 작업에서 눈에 띄는 성과를 보인 것 외에도, 놀라웠던 점은 모든 MoE(Mixture of Experts) 모델들의 점수가 매우 낮았다는 것, 즉 대부분 형편없는 수준이었다는 점입니다. Qwen3.5 35B의 사후 학습(post train) 모델인 Nex N2가 궁금하여 테스트해 보았는데, 베이스 모델보다는 상당히 나은 점수를 기록했다는 점이 흥미로웠지만, 소형 밀집(dense) 모델들과 비교했을 때 특별히 뛰어나지는 않았습니다. 이 벤치마크는 최선의 결과를 얻기 위해 자신의 작업에 맞춰 모델을 벤치마킹하는 것이 얼마나 중요한지를 보여주는 좋은 사례입니다. 결과가 예상과 다를 수 있기 때문입니다.
submitted by /u/1ncehost
[link] [comments]

Insights

난이도 높은 HTML 데이터 추출 작업에 대해 2B에서 35B 크기의 모델들을 벤치마킹했습니다

요약

핵심 포인트

댓글

VODAM Motion API: 운동 영상을 업로드하면 PINN 기반으로 자세 분석/가이드 비교를 해주는 API

Raspberry Pi에서 AI 에이전트를 실행하고 공인 IP 없이 어디서나 접속하기

맞춤형 SLM vs LLM: B2B SaaS를 위한 AI 기술 의사결정 프레임워크

Amazon은 3세대 에이전트를 보유하고 있지만, Mercado Libre 판매자들은 여전히 스페인어로 수동 답변을 합니다

VODAM Motion API: 운동 영상을 업로드하면 PINN 기반으로 자세 분석/가이드 비교를 해주는 API

Raspberry Pi에서 AI 에이전트를 실행하고 공인 IP 없이 어디서나 접속하기

맞춤형 SLM vs LLM: B2B SaaS를 위한 AI 기술 의사결정 프레임워크

Amazon은 3세대 에이전트를 보유하고 있지만, Mercado Libre 판매자들은 여전히 스페인어로 수동 답변을 합니다