본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 24. 22:06

LLM 기반 프로그램 복구에서 기억(Memorization) 진단을 위한 변태적 테스트 접근 방식

요약

대규모 언어 모델(LLMs)을 활용한 자동 프로그램 복구(APR)는 유망하지만, 평가 벤치마크가 학습 데이터와 겹칠 경우 '데이터 누수(data leakage)'로 인해 성능이 과대평가될 위험이 있습니다. 본 논문은 메타모픽 테스트(Metamorphic Testing, MT)를 음의 로그 우도(Negative Log-Likelihood, NLL)와 결합하여 이러한 데이터 누수를 더 강력하게 진단하는 방법을 제시합니다. Defects4J 및 GitBug-Java 같은 표준 벤치마크에 의미 보존 변환(semantics-erving)을

핵심 포인트

  • MT를 활용한 APR 평가 시, LLM의 패치 생성 성공률이 변형된 벤치마크에서 GPT-4o(-4.1%)부터 Llama-3.1(-15.98%)까지 크게 하락하는 것이 관찰되었습니다.
  • 성능 저하 정도는 원본 벤치마크에서의 NLL과 강한 상관관계를 보였으며, 이는 모델이 기억하기 쉬운 인스턴스에서 더 좋은 성능을 보이는 경향을 시사합니다.
  • 메타모픽 테스트와 NLL의 결합은 데이터 누수에 대한 강력하고 신뢰할 수 있는 증거를 제공하며, MT만으로도 LLM 기반 APR 평가의 영향을 완화하는 데 도움을 줄 수 있습니다.
  • Defects4J 및 GitBug-Java 같은 기존 벤치마크에 의미 보존 변환을 적용하여 새로운 형태의 스트레스 테스트 환경을 구축했습니다.

LLM 기반 자동 프로그램 복구(APR: Automated Program Repair) 기술은 디버깅 비용 절감에 있어 유망한 결과를 보여주었습니다. 하지만, 이전 연구 결과는 데이터 누출(data leakage)의 영향을 받을 수 있습니다. 즉, 대규모 언어 모델(LLMs)이 평가 벤치마크가 사전 학습 데이터(pretraining data)와 중복될 경우 버그 수정 내용을 암기할 수 있으며, 이는 과대평가된 성능 추정으로 이어집니다. 본 논문에서는 변태적 테스트(MT: Metamorphic Testing)를 음의 로그 우도(NLL: Negative Log-Likelihood)와 결합하여 데이터 누출을 더 잘 드러낼 수 있는지 조사합니다. NLL은 이전 연구에서 기억의 대리 지표(proxy for memorization)로 사용되어 왔습니다. 우리는 두 가지 널리 사용되는 데이터셋인 Defects4J와 GitBug-Java에 의미론 보존 변환(semantics-preserving transformations)을 적용하여 변형 벤치마크를 구축합니다. 이 벤치마크들을 사용하여, 우리는 원래 버전과 변형된 버전에 대한 일곱 가지 LLM의 복구 성공률을 평가하고, 성능 저하와 NLL 간의 관계를 분석합니다. 우리의 결과는 평가된 최첨단(state-of-the-art) LLM들이 변형 벤치마크에서 패치 생성 성공률이 상당한 하락을 보인다는 것을 보여주는데, 그 폭은 GPT-4o의 -4.1%부터 Llama-3.1의 -15.98%에 이르렀습니다. 더욱이, 우리는 이러한 성능 저하가 원래 벤치마크에서의 NLL과 강하게 상관관계가 있음을 발견했으며, 이는 모델들이 자신이 암기했을 가능성이 더 높은 인스턴스에서 더 잘 작동함을 시사합니다. 이러한 발견은 MT와 NLL을 결합하는 것이 데이터 누출에 대해 더 강력하고 신뢰할 수 있는 증거를 제공하며, 변태적 테스트만 단독으로 사용하더라도 LLM 기반 APR 평가에서 그 영향을 완화하는 데 도움이 될 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
5

댓글

0