LLM 코드 생성의 한계 극복: 자체 테스트 케이스를 활용하는 DryRUN
요약
대규모 언어 모델(LLM) 기반 코딩 프레임워크는 복잡한 문제 해결에 강력하지만, 기존 방식은 사람이 수동으로 작성한 공용 테스트 케이스(public test cases)에 크게 의존합니다. 이는 개발 과정에서 병목 현상을 일으키고, 모델이 단순 예제에 과적합(overfit)되어 실제 환경에서 실패하는 '과신 격차(overconfidence gap)'를 유발합니다. 본 논문은 이러한 외부 테스트 케이스의 필요성을 부정하며, LLM 자체가 스스로 입력값을 생성하고 실행 과정을 시뮬레이션하여 코드를 자체적으로 교정할 수 있는 새로운 프
핵심 포인트
- 기존 LLM 코드 생성 방식은 사람이 제공하는 공용 테스트 케이스에 의존하여 '과신 격차(overconfidence gap)' 문제를 겪습니다.
- DryRUN 프레임워크는 외부의 정답 입력-출력 예시 없이, LLM이 스스로 입력값을 생성하고 실행을 시뮬레이션하며 코드를 개선합니다.
- LiveCodeBench v6 데이터셋 평가 결과, DryRUN은 기존 SOTA(State-of-the-Art) 프레임워크와 동등한 성능을 보이면서도 공용 테스트 케이스나 외부 피드백 없이 작동합니다.
- DryRUN의 핵심 메커니즘은 LLM이 계획 수립, 자체 입력 생성, 실행 시뮬레이션을 반복하는 순환 구조를 갖는 것입니다.
DryRUN: On the Role of Public Tests in LLM-Driven Code Generation
Multi-agent frameworks are widely used in autonomous code generation and have applications in complex algorithmic problem-solving. Recent work has addressed the challenge of generating functionally correct code by incorporating simulation-driven planning and debugging, where language models trace execution steps to verify logic. However, these approaches depend on human-provided public test cases to ground the debugging and simulation loop. Manually authoring comprehensive input-output examples is a labor-intensive bottleneck in the software development lifecycle.
Because ground-truth input-output examples are rarely available prior to implementation in real-world software engineering, this dependency restricts methods to curated competitive programming benchmarks. Furthermore, we identify that reliance on these public tests induces an ``overconfidence gap,'' causing frameworks to overfit to simplistic examples and fail on hidden evaluations. In contrast, we observe that external sample inputs are not strictly necessary for code generation. We demonstrate that large language models can autonomously generate valid inputs and simulate execution traces to self-correct.
Consequently, we develop DryRUN, a framework that eliminates the need for ground-truth samples by allowing the LLM to iteratively plan, autonomously generate its own inputs and simulate execution, mitigating algorithmic overconfidence. Evaluations on the LiveCodeBench v6 dataset (post-March 2025) demonstrate that DryRUN matches performance against CodeSIM, a state-of-the-art and public-test-dependent framework, while operating entirely without public test cases or external execution feedback while reducing output token consumption.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기