arXiv논문2026. 06. 18. 12:29

X+Slides: 청중 조건부 슬라이드 생성 벤치마킹

요약

청중의 특성을 고려한 슬라이드 생성 능력을 평가하기 위한 새로운 벤치마크인 X+Slides를 소개합니다. 기존 벤치마크가 간과했던 대상 청중별 유용성을 측정하며, DeepPresenter와 NotebookLM 등의 성능을 분석합니다.

핵심 포인트

청중 조건부 슬라이드 생성 평가를 위한 X+Slides 벤치마크 제안
청중 커버리지, 도메인 커버리지, 효율성, 정확성 등 4가지 지표 도입
NotebookLM, DeepPresenter 등 기존 모델의 청중 맞춤형 생성 한계 지적
소스 근거 기반의 평가가 시각적 품질보다 중요함을 강조

소스 문서로부터 슬라이드 덱을 자동으로 생성하는 것은 대규모 언어 모델 (LLMs)의 중요한 응용 분야입니다. 기존의 벤치마크들은 주로 슬라이드의 완성도와 기술적 깊이를 평가하며, 실세계의 핵심 요소인 대상 청중 (target audience)을 간과하고 있습니다. 예를 들어, 전문가들은 엄격한 증명을 요구하는 반면, 의사 결정권자들은 실행 가능한 결론을 우선시합니다. 이러한 격차를 해소하기 위해, 우리는 청중 조건부 슬라이드 생성 (audience-conditioned slide generation)을 위해 특별히 설계된 벤치마크인 X+Slides를 소개합니다. 113개의 주제와 7개의 발표 장면을 아우르는 다양한 코퍼스(corpus)를 기반으로 구축된 X+Slides는 중복을 제거하고 소스에 근거한(source-grounded) 8,133개의 프로브(probes)로 구성된 동적 평가 프레임워크를 채택합니다. 동일한 소스 근거 프로브에 청중별 유용성 가중치를 할당함으로써, X+Slides는 네 가지 상호 보완적인 지표를 보고합니다: 청중 커버리지 (Audience Coverage)는 청중에게 필수적인 정보가 얼마나 전달되는지를 측정하고, 도메인별 커버리지 (Domain-wise Coverage)는 어떤 유형의 정보가 다뤄지는지를 보여주며, 효율성 (Efficiency)은 주의력 비용 (attention cost) 단위당 전달된 유용성을 측정하고, 정확성 (Correctness)은 슬라이드의 주장이 소스에 의해 뒷받침되는지를 검증합니다. DeepPresenter, SlideTailor, 그리고 NotebookLM에 대한 실험 결과, 현재의 시스템들은 청중 필수 정보의 상당 부분을 회복할 수 있지만 여전히 불완전함을 보여줍니다: $τ_A=0.7$에서 DeepPresenter는 0.714의 최고 청중 커버리지에 도달하고, SlideTailor는 0.594에 도달하며, NotebookLM 절제 연구 (ablation)는 명확한 근거 차이를 보이면서 0.853에 도달합니다. 이러한 결과는 시각적 품질과 광범위한 주제 커버리지가 소스 근거 평가 (source-grounded evaluation) 없이는 증거로서 취급되어서는 안 된다는 것을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

X+Slides: 청중 조건부 슬라이드 생성 벤치마킹

요약

핵심 포인트

댓글