FollowTable: 지시사항 준수 표 검색 벤치마크
요약
본 기술 기사는 기존의 주제 유사성 기반 표 검색(Table Retrieval)이 LLM 에이전트 시스템의 발전과 함께 명시적인 지시사항 준수 방식으로 변화하고 있음을 제시합니다. 이에 따라, 내용 범위 및 스키마 제약 조건을 동시에 만족해야 하는 새로운 작업인 '지시사항 준수 표 검색(IFTR)'을 공식화했습니다. 연구진은 IFTR에 대한 첫 대규모 벤치마크인 FollowTable을 소개하고, 지시사항 적응도를 측정하는 Instruction Responsiveness Score라는 새로운 평가 지표를 제안하며, 기존 모델들이 이러한 세밀한 지시사항 처리에서 어려움을 겪고 있음을 보여줍니다.
핵심 포인트
- 전통적인 표 검색(TR)은 주제 유사성 기반이었으나, LLM 에이전트 사용 증가로 인해 명시적이고 조건부인 '지시사항 구동' 방식으로 변화하고 있다.
- 새로운 작업 정의인 지시사항 준수 표 검색(IFTR)은 내용 범위 제약과 스키마 기반 요구 사항을 동시에 만족해야 한다.
- 연구진은 IFTR의 첫 대규모 벤치마크인 FollowTable을 구축하여 체계적인 평가 환경을 제공한다.
- 새로운 지표 'Instruction Responsiveness Score'를 통해 모델이 사용자 지시사항에 얼마나 일관되게 적응하는지 측정할 수 있다.
표 검색 (Table Retrieval, TR) 은 전통적으로 주제별 의미 유사성에 의해 관련성이 주로 결정되는 임의적 검색 문제로 구성되어 왔습니다. LLM 기반 에이전트 시스템의 채택이 증가함에 따라 구조화된 데이터에 대한 접근은 주제별 유사성뿐만 아니라 명시적인 내용과 스키마 제약 조건에 조건부인 지시사항 구동 (instruction-driven) 방식으로 점차 변화하고 있습니다. 따라서 우리는 모델이 주제 관련성과 세밀한 지시사항 제약을 동시에 만족해야 하는 새로운 작업인 지시사항 준수 표 검색 (Instruction-Following Table Retrieval, IFTR) 을 공식화했습니다. 우리는 IFTR 에서 두 가지 핵심 과제를 식별합니다: (i) 내용 범위에 대한 민감성, 예를 들어 포함 및 제외 제약 조건과 (ii) 열 의미와 표현粒度 (granularity) 를 포함한 스키마 기반 요구 사항에 대한 인식--이러한 능력은 기존 검색기에서 거의 결여되어 있습니다. 체계적인 평가를 지원하기 위해 우리는 분류학적 구도 (taxonomy-driven) 주석 파이프라인을 통해 구성된 IFTR 의 첫 번째 대규모 벤치마크인 FollowTable 을 소개합니다. 또한 주제 만 기준선 (baseline) 에 비해 검색 순위가 사용자 지시사항에 대해 일관되게 적응하는지를 평가하기 위해 Instruction Responsiveness Score 라는 새로운 지표를 제안했습니다. 우리의 결과는 기존 검색 모델이 표 데이터에 대한 세밀한 지시사항을 따르는 데 어려움을 겪고 있음을 나타냅니다. 특히, 그들은 표면적 의미 단서에 대한 체계적 편향을 보이며 스키마 기반 제약을 처리하는 데 한계가 있어 향후 개선의 여지가 크다는 점을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기