A$^{2}$utoLPBench: 역 KKT 구축을 통한 자동 생성 및 에이전트 친화적 LP 벤치마크
요약
A$^{2}$utoLPBench는 역 KKT 조건을 활용하여 자동으로 생성되는 선형 계획법(LP) 벤치마크입니다. 정적 데이터셋의 한계인 데이터 유출 문제를 해결하고, 난이도 조절이 가능하며 정답이 보장된 에이전트 평가 환경을 제공합니다.
핵심 포인트
- 역 KKT 구축을 통한 자동 문제 생성 및 정답 보장
- 데이터 유출(Data Contamination) 방지를 위한 생성형 벤치마크
- 변수 및 제약 조건 수에 따른 난이도 조절 가능
- Docker 기반의 에이전트 친화적 평가 환경 제공
대부분의 텍text 기반 LP (Linear Programming, 선형 계획법) 벤치마크는 사람이 직접 작성하고 라벨링한 문장제 문제의 정적 데이터셋입니다. 이러한 데이터셋이 한 번 공개되면 그 크기와 난이도는 고정되며, 모든 문제는 향후 LLM (Large Language Model, 거대 언어 모델)의 학습 데이터로 유출될 수 있습니다. 우리는 평문으로 작성된 선형 계획법 문제에 대해 LLM 기반 에이전트를 테스트하기 위한 벤치마크인 \textbf{A$^{2}$utoLPBench}를 제시합니다. 우리는 먼저 실행 가능한 점 (feasible point)과 쌍대 변수 (dual)를 선택한 다음, 해당 점이 최적이며 목적 함수 값 (objective value)을 알고 있는 문제를 작성합니다. 정답은 솔버 (solver) 호출이나 인간 주석가 없이 구축 과정 자체를 통해 이미 알려져 있습니다. 평가 환경은 참조용 솔버-비평가 (solver-critic) 베이스라인과 LLM 기반 에이전트가 읽을 수 있도록 사용 지침이 작성된 Docker 이미지를 포함합니다. 이러한 준비를 통해 어떤 에이전트든 단 한 번의 명령으로 벤치마크를 실행하고 보정된 점수를 얻을 수 있습니다. 이 벤치마크는 고정된 데이터셋이 아니라 생성기 (generator)이기 때문에, 고정된 데이터셋은 따라올 수 없는 특성을 가집니다: 무제한의 새로운 문제 공급, $(n,m)$에 의해 설정되는 난이도 조절 노브 (difficulty knob), 구축을 통해 보장되는 정답 (ground-truth answers), 인간의 저술 대비 문제당 낮은 LLM 측 비용, 독립적인 배치 간의 반복 가능한 점수, 그리고 컷오프 (cutoff) 이후의 새로운 시드 범위를 사용할 때의 학습 데이터 유출에 대한 저항성입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기