arXiv논문2026. 05. 01. 12:38

TopBench: 표 기반 질문 답변에 대한 암묵적 예측 및 추론을 위한 벤치마크

요약

TopBench는 대형 언어 모델(LLMs)의 표 기반 질문 답변 능력을 평가하기 위해 개발된 새로운 벤치마크입니다. 기존 LLM들이 단순 정보 추출에 강점을 보이지만, 실제 세계의 복잡한 '암묵적 예측' 추론 능력은 부족합니다. TopBench는 의사 결정, 치료 효과 분석 등 네 가지 하위 작업을 포함하는 779개의 샘플로 구성되어 있으며, 모델이 구조화된 표와 추론 텍스트를 모두 생성하도록 요구하여 LLM의 심층적인 예측적 추론 능력을 측정합니다.

핵심 포인트

TopBench는 단순 정보 추출을 넘어선 '암묵적 예측' 및 '예측적 추론' 능력을 평가하는 데 초점을 맞춘 벤치마크이다.
이러한 복잡한 질문 답변은 잠재적 의도 인식(latent intent recognition)과 신뢰할 수 있는 예측적 추론을 요구한다.
실험 결과, 현재 LLMs는 단순 조회에 의존하는 경향이 있으며, 정확한 '의도 소거(intent disambiguation)'가 필수적인 전제 조건임을 확인했다.
모델 성능 향상을 위해서는 정교한 모델링과 추론 능력 통합이 필요하다.

대형 언어 모델 (LLMs) 은 표 기반 질문 답변 (Table Question Answering) 을 발전시켰으며, 대부분의 쿼리는 정보 추출이나 단순 집계로 답변할 수 있습니다. 그러나 실제 세계의 일반적인 쿼리 유형 중 하나는 암묵적으로 예측적 (implicitly predictive) 인 것으로, 단순한 검색이 아닌 역사적 패턴을 통해 관찰되지 않은 답변을 추론해야 합니다. 이러한 쿼리는 잠재적 의도 인식 (latent intent recognition) 과 방대한 표에 대한 신뢰할 수 있는 예측적 추론 (reliable predictive reasoning) 이라는 두 가지 도전을 제기합니다. 암묵적 예측 (implicit Prediction) 과제를 포함한 이러한 표 기반 질문 답변에서 LLMs 의 성능을 평가하기 위해, 우리는 단일 점 예측부터 의사 결정, 치료 효과 분석, 복잡한 필터링에 이르기까지 네 가지 하위 작업을 아우르는 779 개의 샘플로 구성된 TopBench 벤치마크를 소개합니다. 이 벤치마크는 추론 텍스트와 구조화된 표에 걸친 출력을 생성하도록 모델을 요구합니다. 우리는 텍스트 기반 (text-based) 과 에이전트 워크플로우 (agentic workflows) 하에서 다양한 모델을 평가했습니다. 실험 결과, 현재 모델들은 의도 인식에서 어려움을 겪으며 단순한 조회 (lookups) 에 의존하는 경향이 있음을 보여줍니다. 더 깊은 분석을 통해 정확한 의도 소거 (intent disambiguation) 가 이러한 예측적 행동을 이끄는 데 필수적인 전제 조건임을 확인했습니다. 또한, 예측 정밀도의 상한선을 높이기 위해서는 더 정교한 모델링이나 추론 능력의 통합이 필요함이 밝혀졌습니다.

AI 자동 생성 콘텐츠

원문 바로가기

TopBench: 표 기반 질문 답변에 대한 암묵적 예측 및 추론을 위한 벤치마크

요약

핵심 포인트

댓글