본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 01. 12:38

TopBench: 표 기반 질문 답변에 대한 암묵적 예측 및 추론을 위한 벤치마크

요약

TopBench는 대형 언어 모델(LLMs)의 표 기반 질문 답변 능력을 평가하기 위해 개발된 새로운 벤치마크입니다. 기존 LLM들이 단순 정보 추출에 강점을 보이지만, 실제 세계의 복잡한 '암묵적 예측' 추론 능력은 부족합니다. TopBench는 의사 결정, 치료 효과 분석 등 네 가지 하위 작업을 포함하는 779개의 샘플로 구성되어 있으며, 모델이 구조화된 표와 추론 텍스트를 모두 생성하도록 요구하여 LLM의 심층적인 예측적 추론 능력을 측정합니다.

핵심 포인트

  • TopBench는 단순 정보 추출을 넘어선 '암묵적 예측' 및 '예측적 추론' 능력을 평가하는 데 초점을 맞춘 벤치마크이다.
  • 이러한 복잡한 질문 답변은 잠재적 의도 인식(latent intent recognition)과 신뢰할 수 있는 예측적 추론을 요구한다.
  • 실험 결과, 현재 LLMs는 단순 조회에 의존하는 경향이 있으며, 정확한 '의도 소거(intent disambiguation)'가 필수적인 전제 조건임을 확인했다.
  • 모델 성능 향상을 위해서는 정교한 모델링과 추론 능력 통합이 필요하다.

대형 언어 모델 (LLMs) 은 표 기반 질문 답변 (Table Question Answering) 을 발전시켰으며, 대부분의 쿼리는 정보 추출이나 단순 집계로 답변할 수 있습니다. 그러나 실제 세계의 일반적인 쿼리 유형 중 하나는 암묵적으로 예측적 (implicitly predictive) 인 것으로, 단순한 검색이 아닌 역사적 패턴을 통해 관찰되지 않은 답변을 추론해야 합니다. 이러한 쿼리는 잠재적 의도 인식 (latent intent recognition) 과 방대한 표에 대한 신뢰할 수 있는 예측적 추론 (reliable predictive reasoning) 이라는 두 가지 도전을 제기합니다. 암묵적 예측 (implicit Prediction) 과제를 포함한 이러한 표 기반 질문 답변에서 LLMs 의 성능을 평가하기 위해, 우리는 단일 점 예측부터 의사 결정, 치료 효과 분석, 복잡한 필터링에 이르기까지 네 가지 하위 작업을 아우르는 779 개의 샘플로 구성된 TopBench 벤치마크를 소개합니다. 이 벤치마크는 추론 텍스트와 구조화된 표에 걸친 출력을 생성하도록 모델을 요구합니다. 우리는 텍스트 기반 (text-based) 과 에이전트 워크플로우 (agentic workflows) 하에서 다양한 모델을 평가했습니다. 실험 결과, 현재 모델들은 의도 인식에서 어려움을 겪으며 단순한 조회 (lookups) 에 의존하는 경향이 있음을 보여줍니다. 더 깊은 분석을 통해 정확한 의도 소거 (intent disambiguation) 가 이러한 예측적 행동을 이끄는 데 필수적인 전제 조건임을 확인했습니다. 또한, 예측 정밀도의 상한선을 높이기 위해서는 더 정교한 모델링이나 추론 능력의 통합이 필요함이 밝혀졌습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0