A$^{2}$utoLPBench: 역 KKT 구축을 통한 자동 생성 및 에이전트 친화적 LP 벤치마크

대부분의 텍text 기반 LP (Linear Programming, 선형 계획법) 벤치마크는 사람이 직접 작성하고 라벨링한 문장제 문제의 정적 데이터셋입니다. 이러한 데이터셋이 한 번 공개되면 그 크기와 난이도는 고정되며, 모든 문제는 향후 LLM (Large Language Model, 거대 언어 모델)의 학습 데이터로 유출될 수 있습니다. 우리는 평문으로 작성된 선형 계획법 문제에 대해 LLM 기반 에이전트를 테스트하기 위한 벤치마크인 \textbf{A$^{2}$utoLPBench}를 제시합니다. 우리는 먼저 실행 가능한 점 (feasible point)과 쌍대 변수 (dual)를 선택한 다음, 해당 점이 최적이며 목적 함수 값 (objective value)을 알고 있는 문제를 작성합니다. 정답은 솔버 (solver) 호출이나 인간 주석가 없이 구축 과정 자체를 통해 이미 알려져 있습니다. 평가 환경은 참조용 솔버-비평가 (solver-critic) 베이스라인과 LLM 기반 에이전트가 읽을 수 있도록 사용 지침이 작성된 Docker 이미지를 포함합니다. 이러한 준비를 통해 어떤 에이전트든 단 한 번의 명령으로 벤치마크를 실행하고 보정된 점수를 얻을 수 있습니다. 이 벤치마크는 고정된 데이터셋이 아니라 생성기 (generator)이기 때문에, 고정된 데이터셋은 따라올 수 없는 특성을 가집니다: 무제한의 새로운 문제 공급, $(n,m)$에 의해 설정되는 난이도 조절 노브 (difficulty knob), 구축을 통해 보장되는 정답 (ground-truth answers), 인간의 저술 대비 문제당 낮은 LLM 측 비용, 독립적인 배치 간의 반복 가능한 점수, 그리고 컷오프 (cutoff) 이후의 새로운 시드 범위를 사용할 때의 학습 데이터 유출에 대한 저항성입니다.

Insights

A$^{2}$utoLPBench: 역 KKT 구축을 통한 자동 생성 및 에이전트 친화적 LP 벤치마크

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실