요약(TL;DR): 2026년에는 텍스트 추출과 요약 모두에서 압도적인 단일 LLM은 없습니다. Gemini 2.5 Flash-Lite는 Vectara의 단문 요약 벤치마크에서 가장 낮은 환각(Hallucination) 발생률(3.3%)을 기록했지만, 100K 이상의 토큰을 가진 문서에서는 Gemini 3.1 Pro와 GPT-5.5가 지배적인 영역에서 밀려납니다. 대규모 구조화된 추출(Structured extraction)의 경우, DeepSeek V4 Flash가 비용을 30분의 1 수준으로 유지하면서 프런티어(Frontier) 모델들과 대등한 성능을 보여줍니다. 리더보드 순위가 아니라 문서의 길이, 구조, 그리고 예산에 따라 모델을 선택하십시오. 2026년의 "최고" 요약 모델은 당신의 평가 하네스(Eval harness)가 지난 화요일에 당신의 문서와 유사한 데이터로 선택한 바로 그 모델입니다. 이 계층에서 프런티어 모델들은 대체 가능(Fungible)합니다. 모델 간의 차이는 동일한 모델에 대한 두 프롬프트 간의 차이보다 작습니다.

요약 벤치마크가 세 가지 서로 다른 승자로 나뉘는 이유

요약은 하나의 작업처럼 보입니다. 하지만 벤치마크 결과는 세 가지 작업임을 말해줍니다.

첫 번째 작업은 단문 문서의 충실도(Short-document faithfulness)입니다: 500단어 분량의 뉴스 기사를 가져와 두 문장으로 요약하되, 아무것도 지어내지 마십시오. 현재 승자는 Google의 Gemini 2.5 Flash-Lite로, Vectara의 HHEM-2.3 리더보드에서 3.3%의 환각(Hallucination) 발생률을 기록하며 GPT-5.4 Nano를 근소하게 앞서고 있습니다 (GPT-5.4 Nano는 더 쉬운 데이터셋에서는 3.1%를 기록했으나, 더 어려운 데이터셋에서는 3.3% 이상을 기록했습니다). ( Vectara Hallucination Leaderboard )

두 번째 작업은 장문 문서 이해(Long-document comprehension)입니다: 200페이지 분량의 계약서를 입력하고 "배상 한도는 얼마이며 어디에 명시되어 있는가?"라고 물으십시오. 이 영역에서는 Gemini 3.1 Pro와 GPT-5.5만이 HELMET 벤치마크에서 100K 토큰을 넘어선 후에도 성능이 저하되지 않는 유일한 프런티어 모델들입니다. 특히 Gemini 3.1 Pro의 1M 컨텍스트 윈도우(Context window)는 Claude Sonnet이 조용히 실패할 위치에서도 정확도를 유지합니다. ( HELMET on HuggingFace )

세 번째 작업은 구조화된 추출(Structured extraction)입니다: 5만 개의 송장에서 모든 금액, 모든 인명, 모든 날짜를 추출하여 깔끔한 JSON 형식으로 만드십시오. 스키마(Schema)가 출력을 제한하기 때문에 환각(Hallucination)의 중요성은 상대적으로 낮아집니다. 대신 처리량(Throughput)과 토큰당 비용이 지배적인 요소가 됩니다.

DeepSeek V4 Flash와 GPT-5.4 Nano가 비용 대비 품질(cost-quality) 측면에서 이 카테고리를 석권하며, Opus급 모델보다 종종 30배 더 저렴하면서도 정확도 차이는 한 자릿수에 불과합니다. 이 세 가지 요소 중 하나에서 승리하는 모델이 나머지 두 가지에서는 패배할 수도 있습니다. 여러분이 Twitter에서 읽은 리더보드는 아마도 단 한 가지 요소만을 측정하고 있을 것입니다. 2026년에 반드시 알아야 할 네 가지 벤치마크:

Vectara HHEM-2.3 (단문 문서 충실도)

Vectara Hallucination Leaderboard (최종 업데이트: 2026년 5월 11일)는 "요약이 원문에 충실한가"를 판단하는 사실상의 표준(de facto standard)입니다. 이 벤치마크는 상용 평가 모델인 HHEM-2.3을 사용하여 모델의 요약 내 각 문장이 원문 문서에 의해 뒷받침되는지 점수를 매깁니다. 기존 벤치마크는 1,006개의 짧은 문서를 사용하지만, 2026년에 출시된 더 어렵고 새로운 벤치마크는 법률, 의학, 금융, 교육 및 기술 분야에 걸친 7,700개의 기사를 다룹니다.

기존 데이터셋(2026년 5월) 기준 상위 10위:

순위	모델	환각률 (Hallucination Rate)	답변율 (Answer Rate)
1	Ant Group finix_s1_32b	1.8%	99.5%
2	OpenAI gpt-5.4-nano-2026-03-17	3.1%	100.0%
3	Google gemini-2.5-flash-lite	3.3%	99.5%
4	Microsoft Phi-4	3.7%	80.7%
5	Meta Llama-3.3-70B-Instruct-Turbo	4.1%	99.5%
6	Google gemma-3-12b-it	4.4%	97.4%
7	Mistral mistral-large-2411	4.5%	99.9%
8	Qwen qwen3-8b	4.8%	99.9%
9	Amazon nova-pro-v1	5.1%	99.3%
10	DeepSeek V3.2-Exp	5.3%	96.6%

상위 10위 목록에서 무엇이 빠져 있는지 주목하십시오: 바로 모든 프런티어 추론(frontier reasoning) 모델들입니다. Claude Opus는 역사적으로 이 벤치마크에서 10% 내외를 기록해 왔습니다. 사고 모드(thinking mode)가 활성화된 GPT-5.5는 더 어려운 데이터셋에서 8~12% 범위의 점수를 기록합니다. 더 많은 추론은 더 많은 추론(inference)을 의미하며, 이는 더 많은 환각(hallucination)을 의미합니다. 즉, 짧은 요약의 충실도 측면에서는 더 작고 덜 복잡한 모델이 종종 더 나을 수 있습니다. 교훈은 다음과 같습니다: 만약 여러분이 뉴스, 법률 초록, 또는 "사실을 지어내는 것"이 해고 사유가 될 수 있는 어떤 것을 요약하고 있다면, 플래그십 모델이 아닌 정렬(alignment)이 잘 된 작은 모델로 경로를 지정하십시오.

HELMET (long-context downstream tasks) HELMET ("How to Evaluate Long-context Models Effectively and Thoroughly")는 Needle-in-a-haystack (건초더미 속 바늘 찾기) 벤치마크가 너무 쉬우며, 실제 요약(Summarization)이나 추출(Extraction) 워크로드를 반영하지 못한다는 사실에 대한 Princeton의 2024년 대응책입니다. 이 벤치마크는 요약(Summarization), 검색 증강 생성 (RAG, Retrieval-Augmented Generation), 인용 추출 (Citation Extraction), 인컨텍스트 학습 (ICL, In-context Learning)을 포함하여 최대 128K 토큰까지 조절 가능한 길이에서 7가지 카테고리를 테스트합니다. ( HELMET on GitHub ) 2026년의 발견: Gemini 3.1 Pro, GPT-5.5, Claude Opus 4.7만이 요약 스타일 작업에서 64K 토큰 이후에도 품질을 유지합니다. 동일한 제품군의 더 작은 변체(variants)들을 포함한 그 외의 모든 모델은 32K를 넘어서면 눈에 띄게 성능이 저하됩니다. 만약 귀하의 문서가 정기적으로 100페이지를 넘어간다면, 선택지는 극적으로 좁아집니다.

RULER / ONERULER (retrieval and extraction at length)

RULER는 모델이 긴 컨텍스트(Long-context) 속에 묻혀 있는 특정 사실을 얼마나 잘 찾아내고 추론할 수 있는지를 테스트합니다. ONERULER는 이를 26개 언어로 확장했습니다. ( RULER paper ) 이러한 벤치마크는 추출 작업에 있어 중요합니다: "이 800페이지 분량의 계약서에서 배상 조항(indemnity clause)을 찾으세요"는 구조적으로 하나의 바늘이 있는 RULER 작업입니다. "이 200개의 보안 권고문에서 언급된 모든 CVE를 추출하세요"는 다중 바늘(multi-needle) 형태의 RULER 변체입니다. 1M 컨텍스트 윈도우(Context Window)를 가진 프런티어 모델(Frontier models, Gemini 3.1 Pro, GPT-5.5)은 128K 컨텍스트를 가진 Claude 변체들이 놓치기 시작하는 길이에서도 이 벤치마크를 통과합니다.

LongBench Pro (realistic bilingual long-context)

LongBench Pro는 사람이 검증하였으며, 중국어와 영어 문서를 포함하고, 모델이 어텐션(Attention) 트릭으로 속임수를 쓸 수 있는 "합성 바늘(synthetic needle)" 패턴을 피합니다. 이는 실제 기업용 요약 벤치마크에 가장 근접한 것이며, 당연하게도 선두 주자는 동일한 세 모델인 Gemini 3.1 Pro, GPT-5.5, Claude Opus 4.7입니다. 이들의 순위는 문서의 장르(법률 vs 과학 vs 서사)에 따라 크게 달라집니다.

( LongBench Pro 논문 ) 작업별 모델 선택 (가장 중요한 유일한 차트)

작업 (Your Job)	최우선 선택 (품질 기준)	최우선 선택 (비용 대비 품질 기준)	피해야 할 것
짧은 기사 → 2문장 요약	Gemini 2.5 Flash-Lite	Phi-4, Llama 3.3 70B	Opus급 추론 모델 (Opus-class reasoning models)
긴 계약서 → 요약 보고서 (Executive summary)	Gemini 3.1 Pro	GPT-5.5 (Opus 4.7보다 저렴)	컨텍스트(Context) 128K 이하의 모든 모델
800페이지 문서 → 특정 조항 찾기	Gemini 3.1 Pro (1M ctx)	GPT-5.5	100K를 초과하는 Claude Sonnet 4.6
송장(Invoice) → JSON 추출 (대량 작업)	GPT-5.4 Mini	DeepSeek V4 Flash	플래그십 모델 (Flagships) (3~30배의 낭비 발생)
다국어 초록 (법률, 의료)	Claude Opus 4.7	Qwen3-Plus	테스트된 대상 언어가 없는 모델
규정 준수 수준의 금융 요약	Opus 4.7 + Flash-Lite 검증기	Sonnet 4.6 + Flash-Lite 검증기	단일 모델 파이프라인 (Single-model pipelines)

패턴은 일관적입니다: 플래그십 추론 모델(Flagship reasoning models)은 충실도(Faithfulness)가 중요한 짧은 작업에서는 더 작은 모델들에게 패배하며, 긴 컨텍스트(Long-context), 다국어(Multilingual), 또는 미묘한 차이가 있는 요약 작업에서는 승리합니다. 비용 비율은 일반적으로 저가형 선택지와 품질 중심 선택지 사이에 10~30배 정도 차이가 납니다. 이는 2단계 파이프라인(저렴한 모델이 요약하고, 비싼 모델이 검증하는 방식)을 실행하는 것이 품질과 비용 측면 모두에서 단일 모델 접근 방식보다 나은 경우가 많을 정도로 큰 차이입니다.

가격 현실 점검
2K 토큰 문서를 200 토큰으로 요약하는 경우 (일반적인 뉴스 기사 작업), 2026년 5월 기준 문서당 비용:

모델	입력(Input) $/MTok	출력(Output) $/MTok	1,000개 문서당 비용
Gemini 3.1 Flash-Lite	$0.10	$0.40	≈$0.28
DeepSeek V4 Flash	$0.14	$0.28	≈$0.34
GPT-5.4 Mini	$0.25	$2.00	≈$0.90
GPT-5.5	$5.00	$30.00	≈$16.00
Claude Opus 4.7	$5.00	$25.00	≈$15.00

한 달에 백만 개의 문서를 처리할 때, 이는 $280와 $16,000의 차이를 만듭니다. 짧은 요약 작업에 대해 동일한 작업이며 동일한 일반적 정확도 범위 내에 있음에도 불구하고 말입니다.

단일 OpenAI 호환 게이트웨이 — 왜 LLM API 게이트웨이가 중요한지 확인하세요 — 를 사용하면 모델 선택은 배포(deploy)가 아닌 파라미터 교체(parameter swap)의 문제가 됩니다. ofox.ai는 위 표에 있는 모든 모델을 통합된 액세스 권한을 가진 하나의 엔드포인트로 라우팅하므로, 아키텍처를 재설계하지 않고도 실제 운영 트래픽에서 Gemini Flash-Lite와 Claude Opus를 A/B 테스트할 수 있습니다.

자체 코퍼스(corpus)에서 평가하는 방법 (30분 버전)
공개 벤치마크(Public benchmarks)를 귀하의 데이터에 적용할 때는 거짓이 발생할 수 있습니다. 30분간의 커스텀 평가(custom eval)가 모든 리더보드(leaderboard)를 이깁니다:

1. 실제 코퍼스(테스트 세트가 아닌)에서 50개의 문서를 샘플링합니다.

2. 각 후보 모델에 대해 동일한 요약 프롬프트(summarization prompt)를 실행합니다.

3. 환각(hallucination) 측정을 위해 HHEM-2.3(오픈 소스, 로컬 실행 가능)으로 점수를 매깁니다.

4. 커버리지(coverage) 측정을 위해 ROUGE-L 또는 BERTScore로 점수를 매깁니다.

5. 한 명의 인간 검토자가 30개의 출력물에 대해 가독성(readability)을 평가하게 합니다.

귀하가 실제로 신경 써야 할 네 가지 신호: 사실적 정확도(factual accuracy, 모델이 무언가를 지어냈는가?), 커버리지(coverage, 중요한 내용을 누락했는가?), 비용(cost, 귀하의 볼륨 기준 문서당 비용), 그리고 지연 시간(latency, 사용자 대면 서비스인 경우 첫 번째 토큰까지의 p95).
그 외의 모든 것은 노이즈(noise)입니다. 특히 추출(extraction)의 경우, 올바른 평가는 스키마 수준(schema-level)입니다: 출력을 파싱(parse)하고, 정답(ground truth)에 대해 필드별 F1 점수를 계산하십시오. 만약 파싱할 수 없다면, 그것은 '추출 실패(extraction failure)'입니다. 이는 귀하의 다운스트림 파이프라인(downstream pipeline)이 아닌 모델의 결함으로 간주해야 합니다.

추론 중심의 요약(reasoning-heavy summarization)은 어떤가요?
만약 귀하의 '요약' 작업이 실제로 추론을 필요로 한다면 — 10개의 소스를 종합하고, 모순을 해결하며, 어떤 주장이 더 신뢰할 수 있는지 판단하는 작업 등 — 위의 충실도(faithfulness) 벤치마크 중 어느 것도 적용되지 않습니다. 이 경우에는 추론 계층(reasoning-tier) 모델이 필요하며

그들은 다음과 같이 라우팅(routing)합니다:

기본 라우트 (Default route): 대량의 짧은 요약(short summaries)을 위해 Gemini 3.1 Flash-Lite 또는 DeepSeek V4 Flash 사용
긴 문서 라우트 (Long-document route): 32K 토큰을 초과하는 모든 경우를 위해 Gemini 3.1 Pro 사용
준수 라우트 (Compliance route): 플래그십(flagship) 모델이 요약하고 Flash-Lite 모델이 충실도(faithfulness)를 검증하는 2단계 방식 사용
다국어 라우트 (Multilingual route): 언어에 따라 Claude Opus 4.7 또는 Qwen3-Plus 사용
추론 필요 라우트 (Reasoning-required route): 사고(thinking) 기능이 활성화된 GPT-5.5 또는 Claude Opus 4.7 사용

이는 코딩 워크플로우(coding workflows)에서 나타났던 것과 동일한 패턴(하이브리드 라우팅 패턴 참조)이며, 그 이유 또한 동일합니다. 즉, 모델 제품군(model families)이 단일 모델이 따라잡을 수 있는 속도보다 더 빠르게 전문화되었기 때문입니다. 요약을 넘어 작업별로 더 폭넓은 모델 선택을 원한다면, LLM API 선택 결정 매트릭스(LLM API Selection Decision Matrix)에서 여러 벤더(vendor)를 아우르는 관점을 확인할 수 있습니다. 2026 LLM 리더보드(2026 LLM Leaderboard)는 여기서 설명하는 요약 양상을 보완하는 코딩 및 추론 축을 기준으로 모델의 순위를 매깁니다. 그리고 이 글 전반에서 언급된 세 가지 플래그십 모델 간의 정면 승부를 보려면, Claude 4 vs GPT-5 vs Gemini 3를 참조하십시오.

요약 워크로드(summarization workloads)에서 가장 큰 승리 요인은 적절한 플래그십 모델을 선택하는 것이 아니라, 트래픽의 80%는 플래그십 모델이 필요하지 않다는 점을 알아차리는 것입니다. 쉬운 작업은 1,000개 문서당 0.30달러인 모델로 라우팅하고, 1,000개 문서당 15달러를 지출하는 모델은 실제로 그만한 가치가 있는 케이스를 위해 아껴두십시오.

출처
Vectara Hallucination Leaderboard (HHEM-2.3, 2026년 5월)
Vectara: 차세대 환각 리더보드 (Next Generation Hallucination Leaderboard)
HELMET: 긴 문맥 언어 모델의 총체적 평가 (Holistically Evaluating Long-context Language Models)
RULER: 당신의 긴 문맥 언어 모델의 실제 문맥 크기는 얼마인가? (What's the Real Context Size of Your Long-Context Language Models?)
LongBench Pro 논문
Claude Opus 4.7 소개 — Anthropic
GPT-5.5 소개 — OpenAI
Gemini 3.1 Pro 모델 카드 — Google DeepMind
DeepSeek V4 Pro vs Flash 벤치마크
원문 게시: ofox.ai/blog

텍스트 추출 및 요약(Summarization)을 위한 LLM 벤치마크 (2026): 어떤 모델이 실제로 승리하는가?

요약

핵심 포인트

1. 실제 코퍼스(테스트 세트가 아닌)에서 50개의 문서를 샘플링합니다.

2. 각 후보 모델에 대해 동일한 요약 프롬프트(summarization prompt)를 실행합니다.

3. 환각(hallucination) 측정을 위해 HHEM-2.3(오픈 소스, 로컬 실행 가능)으로 점수를 매깁니다.

4. 커버리지(coverage) 측정을 위해 ROUGE-L 또는 BERTScore로 점수를 매깁니다.

5. 한 명의 인간 검토자가 30개의 출력물에 대해 가독성(readability)을 평가하게 합니다.

댓글