본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 11:14

차분 테스트 시간 스케일링 (Differential Test Time Scaling)을 통한 코드 생성

요약

DiffCodeGen은 기존의 테스트 시간 스케일링 방식이 가진 높은 토큰 비용과 공개 테스트 케이스 의존성 문제를 해결하기 위해 제안된 새로운 코드 생성 방법론입니다. 커버리지 가이드 퍼징을 통해 입력값을 합성하고 코드 후보들의 동적 동작 유사성을 기반으로 클러스터링하여 최적의 코드를 선택합니다. 추가적인 LLM 추론 없이도 비동기식으로 작동하여 효율성과 확장성이 매우 높으며, 다양한 LLM에서 성능 향상을 입증했습니다.

핵심 포인트

  • 커버리지 가이드 차분 분석을 통해 별도의 테스트 케이스나 LLM 없이도 입력값 합성 가능
  • 코드 후보들의 동적 동작 유사성을 기반으로 클러스터링하여 메도이드를 최종 결과로 선택
  • 추가적인 LLM 호출이 없어 토큰 소비와 시간 오버헤드를 획기적으로 절감
  • 비동기식 작동 방식으로 에이전틱 코딩(Agentic coding) 환경에 최적화 및 높은 확장성 제공
  • 모델 불가지론적(Model-agnostic) 특성을 가져 다양한 LLM 및 추론 모델과 결합 가능

테스트 시간 스케일링 (Test-time scaling)은 추론 (Inference) 시점에 거대한 솔루션 공간을 탐색함으로써 코드 생성 (Code generation) 성능을 향상시키는 유망한 접근 방식으로 부상했습니다. 그러나 기존 방법들은 실제 상황에서는 사용할 수 없는 공개 테스트 케이스에 의존하거나, 후보 선택을 위해 광범위한 거대 언어 모델 (LLM) 추론을 필요로 하여 상당한 토큰 소비와 시간 오버헤드를 초래합니다. 우리는 커버리지 가이드 차분 분석 (Coverage-guided differential analysis)에 기반한 새로운 코드 생성용 테스트 시간 스케일링 방법인 DiffCodeGen을 제안합니다. DiffCodeGen은 다양한 샘플링 (Sampling) 및 프롬프팅 (Prompting) 전략을 사용하여 다양한 코드 후보를 생성한 다음, 기존 테스트나 거대 언어 모델 (LLM) 없이도 입력을 합성하기 위해 커버리지 가이드 퍼징 (Coverage-guided fuzzing)을 적용합니다. 이러한 입력값들에 대해 모든 후보를 실행함으로써, DiffCodeGen은 후보들의 동적 동작 (Dynamic behavior)을 포착하고 동작 유사성 (Behavioral similarity)을 기반으로 후보들을 클러스터링 (Clustering)합니다. DiffCodeGen은 가장 큰 클러스터의 메도이드 (Medoid)를 최종 출력으로 선택합니다. 후보 선택을 위해 추가적인 LLM 추론을 호출하는 이전의 테스트 시간 스케일링 방법들과 달리, DiffCodeGen은 추가적인 모델 호출 없이 선택을 수행하므로 추가적인 토큰 소비가 거의 또는 전혀 발생하지 않습니다. DiffCodeGen은 완전히 비동기식 (Asynchronous)으로 작동하여 현재의 에이전틱 코딩 (Agentic coding) 트렌드에 자연스럽게 부합하며, 따라서 효율적이고 확장성이 매우 높습니다. 우리는 4개의 거대 언어 모델 (LLM)에 대해 DiffCodeGen을 평가하였으며, 베이스라인 (Baseline) 대비 일관된 개선을 입증했습니다. 최첨단 (State-of-the-art) 테스트 시간 스케일링 방법들과 비교했을 때, DiffCodeGen은 극히 일부의 시간과 토큰만을 사용하면서도 경쟁력 있거나 우수한 성능을 달성합니다. DiffCodeGen은 모델 불가지론적 (Model-agnostic)이며, 추론 모델 (Reasoning models)과 결합하여 성능을 더욱 끌어올릴 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0