본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 24. 22:06

메타모픽 테스트로 LLM의 프로그램 복구 데이터 누수 진단하기

요약

대규모 언어 모델(LLMs)을 활용한 자동 프로그램 복구(APR)는 유망하지만, 평가 벤치마크가 학습 데이터와 겹칠 경우 '데이터 누수(data leakage)'로 인해 성능이 과대평가될 위험이 있습니다. 본 논문은 메타모픽 테스트(Metamorphic Testing, MT)를 음의 로그 우도(Negative Log-Likelihood, NLL)와 결합하여 이러한 데이터 누수를 더 강력하게 진단하는 방법을 제시합니다. Defects4J 및 GitBug-Java 같은 표준 벤치마크에 의미 보존 변환(semantics-erving)을

핵심 포인트

  • MT를 활용한 APR 평가 시, LLM의 패치 생성 성공률이 변형된 벤치마크에서 GPT-4o(-4.1%)부터 Llama-3.1(-15.98%)까지 크게 하락하는 것이 관찰되었습니다.
  • 성능 저하 정도는 원본 벤치마크에서의 NLL과 강한 상관관계를 보였으며, 이는 모델이 기억하기 쉬운 인스턴스에서 더 좋은 성능을 보이는 경향을 시사합니다.
  • 메타모픽 테스트와 NLL의 결합은 데이터 누수에 대한 강력하고 신뢰할 수 있는 증거를 제공하며, MT만으로도 LLM 기반 APR 평가의 영향을 완화하는 데 도움을 줄 수 있습니다.
  • Defects4J 및 GitBug-Java 같은 기존 벤치마크에 의미 보존 변환을 적용하여 새로운 형태의 스트레스 테스트 환경을 구축했습니다.

A Metamorphic Testing Approach to Diagnosing Memorization in LLM-Based Program Repair

LLM-based automated program repair (APR) techniques have shown promising results in reducing debugging costs. However, prior results can be affected by data leakage: large language models (LLMs) may memorize bug fixes when evaluation benchmarks overlap with their pretraining data, leading to inflated performance estimates. In this paper, we investigate whether we can better reveal data leakage by combining metamorphic testing (MT) with negative log-likelihood (NLL), which has been used in prior work as a proxy for memorization. We construct variant benchmarks by applying semantics-preserving transformations to two widely used datasets, Defects4J and GitBug-Java. Using these benchmarks, we evaluate the repair success rates of seven LLMs on both original and transformed versions, and analyze the relationship between performance degradation and NLL. Our results show that all evaluated state-of-the-art LLMs exhibit substantial drops in patch generation success rates on transformed benchmarks, ranging from -4.1% for GPT-4o to -15.98% for Llama-3.1. Furthermore, we find that this degradation strongly correlates with NLL on the original benchmarks, suggesting that models perform better on instances they are more likely to have memorized. These findings show that combining MT with NLL provides stronger and more reliable evidence of data leakage, while metamorphic testing alone can help mitigate its effects in LLM-based APR evaluations.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0