본문으로 건너뛰기

© 2026 Molayo

DeepMind헤드라인2026. 04. 23. 22:26

대규모언어 모델(LLMs)이 정보 전달의 핵심 수단으로 자리 잡으면서, 답변의 사실적 정확성을 확보하는

요약

대규모 언어 모델(LLMs)이 정보 제공의 주요 수단으로 사용되면서 사실적 정확성 확보가 중요해졌습니다. 이에 DeepMind는 Kaggle과 협력하여 'FACTS Benchmark Suite'을 공개했습니다. 이 벤치마크는 기존 FACTS Grounding Benchmark를 업데이트한 v2와 함께, 모델의 능력을 다각도로 측정하는 네 가지 새로운 평가 영역을 포함합니다. 주요 테스트 항목으로는 내부 지식 기반 질문(Parametric), 웹 검색 도구 활용 능력(Search), 이미지 기반 질의응답(Multimodal) 등이 새

핵심 포인트

  • FACTS Benchmark Suite은 LLM의 사실성 평가를 위해 4가지 전문 영역을 포괄적으로 측정합니다.
  • 새로운 벤치마크는 Parametric (내부 지식), Search (웹 검색 도구), Multimodal (이미지 기반) 능력을 포함하여 모델의 취약점을 심층 분석합니다.
  • Gemini 3 Pro가 전체 FACTS Score에서 선두를 차지했으며, 특히 Search 및 Parametric 영역에서 큰 성능 향상을 보였습니다.
  • 모든 평가된 최신 LLM들이 아직 70% 미만의 정확도를 보여, 사실성 개선을 위한 여지가 크다는 것을 시사합니다.

대규모 언어 모델(LLMs)이 정보 전달의 핵심 수단으로 자리 잡으면서, 답변의 사실적 정확성을 확보하는 것이 매우 중요해졌습니다. 이에 DeepMind는 Kaggle과 협력하여 'FACTS Benchmark Suite'을 공개하며 LLM의 사실성 평가에 새로운 표준을 제시했습니다.

이 벤치마크 스위트는 기존 FACTS Grounding Benchmark를 업데이트한 v2와 함께 총 네 가지 전문적인 테스트 영역으로 구성되었습니다. 각 영역은 모델이 특정 상황에서 얼마나 정확하게 정보를 처리하는지 측정합니다.

주요 평가 항목:

  • Parametric Benchmark: 외부 도구 없이 내부 지식만으로 사실적 질문에 답하는 능력을 측정합니다. 위키피디아 같은 표준 자료를 기반으로 한 '잡학(trivia style)' 질문들이 주를 이룹니다.
  • Search Benchmark: 웹 검색 도구를 활용하여 정보를 검색하고 종합하는 능력을 평가합니다. 여러 웹페이지에서 순차적으로 사실을 추출해야 하는 복합적인 질문에 강점을 보입니다.
  • Multimodal Benchmark: 이미지와 관련된 질문에 대해 사실적으로 정확한 텍스트를 생성할 수 있는 시각적 이해 능력을 테스트합니다.

이 외에도 업데이트된 FACTS Grounding v2는 주어진 문맥(context) 내에서 답변의 근거를 찾는 능력을 평가합니다. 총 3,513개의 예시로 구성된 이 스위트는 공용 및 비공개 세트를 나누어 관리되며, Kaggle이 리더보드를 운영합니다.

최신 LLM들을 대상으로 한 테스트 결과, Gemini 3 Pro가 전체 FACTS Score에서 가장 높은 성능(68.8%)을 기록했습니다. 특히 이전 버전 대비 Search와 Parametric 영역에서 큰 폭의 개선을 보였으나, 전반적으로 평가된 모델들이 아직 70% 미만의 정확도를 보여 지속적인 연구 개발이 필요함을 강조하고 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Google DeepMind의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0