CDR-Bench: 구성적이고 순서에 민감한 데이터 정제 레시피의 충실한 실행 평가

데이터 정제(Data refinement)는 진화하는 텍스트 상태에 대해 다단계 레시피를 실행하는 과정을 포함하며, 여기서 처리 연산자(operators)의 구성(composition)과 실행 순서가 결과를 결정합니다. 기존의 벤치마크들은 텍스트 편집을 고립시키거나 이를 코드 및 도구 실행과 얽어 놓는 방식을 취하고 있어, LLM(Large Language Models)이 이러한 구성적이고 순서에 민감한 데이터 정제 레시피를 직접적이고 충실하게 실행할 수 있는지 여부는 여전히 불분명합니다. 이러한 공백을 메우기 위해, 우리는 4개의 실제 데이터 정제 도메인과 29개의 고유한 연산자를 아우르는 3,462개의 고품질 태스크를 특징으로 하는 포괄적인 벤치마크인 CDR-Bench를 소개합니다. 우리의 벤치마크는 원자적(atomic), 순서 무관(order-agnostic), 그리고 순서 민감(order-sensitive) 설정에 걸쳐 모델을 평가하며, 정확한 평가를 가능하게 하기 위해 결정론적 참조 출력(deterministic reference outputs)을 활용합니다. 10개 이상의 최첨단(state-of-the-art) LLM을 대상으로 한 실험 결과, 일관된 실패 패턴이 드러났습니다: 구성적(compositional) 설정에서는 성능이 급격히 저하되며, 순서 민감한 레시피의 성공률은 붕괴됩니다. 이러한 발견은 현재의 LLM이 신뢰할 수 있는 구성적 데이터 정제에 필요한 절차적 충실성(procedural faithfulness)이 부족함을 강조합니다.

Insights

CDR-Bench: 구성적이고 순서에 민감한 데이터 정제 레시피의 충실한 실행 평가

요약

핵심 포인트

댓글

RAISE: 강건한 적대적 인스턴스 탐색을 통한 LLM 기반 자동 휴리스틱 설계

대규모 데이터베이스에는 작고 오픈 웨이트(Open-Weight)인 언어 모델이 필요하다

RLVR에서의 저차원 적응(LoRA)을 위한 기하학적 보존 직교 초기화

지능의 창조: AGI를 위한 계산적 토대

대규모 데이터베이스에는 작고 오픈 웨이트(Open-Weight)인 언어 모델이 필요하다

RLVR에서의 저차원 적응(LoRA)을 위한 기하학적 보존 직교 초기화

지능의 창조: AGI를 위한 계산적 토대