CDR-Bench: 구성적이고 순서에 민감한 데이터 정제 레시피의 충실한 실행 평가
요약
LLM의 데이터 정제(Data Refinement) 능력을 평가하기 위한 새로운 벤치마크인 CDR-Bench를 소개합니다. 다단계 연산자의 구성과 실행 순서에 따른 모델의 성능을 분석하여, 현재 LLM이 복잡한 절차적 작업을 수행하는 데 한계가 있음을 보여줍니다.
핵심 포인트
- 데이터 정제 연산자의 구성과 순서가 결과에 미치는 영향 분석
- 4개 도메인과 29개 연산자를 포함한 3,462개 태스크 구성
- 최신 LLM들이 순서 민감한 레시피 실행 시 성능이 급격히 저하됨을 확인
- LLM의 절차적 충실성(procedural faithfulness) 부족 문제 제기
데이터 정제(Data refinement)는 진화하는 텍스트 상태에 대해 다단계 레시피를 실행하는 과정을 포함하며, 여기서 처리 연산자(operators)의 구성(composition)과 실행 순서가 결과를 결정합니다. 기존의 벤치마크들은 텍스트 편집을 고립시키거나 이를 코드 및 도구 실행과 얽어 놓는 방식을 취하고 있어, LLM(Large Language Models)이 이러한 구성적이고 순서에 민감한 데이터 정제 레시피를 직접적이고 충실하게 실행할 수 있는지 여부는 여전히 불분명합니다. 이러한 공백을 메우기 위해, 우리는 4개의 실제 데이터 정제 도메인과 29개의 고유한 연산자를 아우르는 3,462개의 고품질 태스크를 특징으로 하는 포괄적인 벤치마크인 CDR-Bench를 소개합니다. 우리의 벤치마크는 원자적(atomic), 순서 무관(order-agnostic), 그리고 순서 민감(order-sensitive) 설정에 걸쳐 모델을 평가하며, 정확한 평가를 가능하게 하기 위해 결정론적 참조 출력(deterministic reference outputs)을 활용합니다. 10개 이상의 최첨단(state-of-the-art) LLM을 대상으로 한 실험 결과, 일관된 실패 패턴이 드러났습니다: 구성적(compositional) 설정에서는 성능이 급격히 저하되며, 순서 민감한 레시피의 성공률은 붕괴됩니다. 이러한 발견은 현재의 LLM이 신뢰할 수 있는 구성적 데이터 정제에 필요한 절차적 충실성(procedural faithfulness)이 부족함을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기