arXiv논문2026. 06. 30. 10:26

변이 주입 프레임워크를 이용한 Java 코드 스니펫 적응에 대한 LLM 평가

요약

LLM이 명시적인 지침 없이 Java 코드 스니펫을 새로운 문맥에 맞게 적응시키는 능력을 평가하는 연구입니다. 변이 주입 프레임워크를 통해 적응 유형, 복잡도, 문맥 의존성을 체계적으로 분석합니다.

핵심 포인트

지침 없는(Instruction-free) 코드 적응 능력 평가
변이 주입 프레임워크를 활용한 Java 데이터셋 구축
적응 유형, 복잡도, 문맥 입도에 따른 성능 분석
테스트 스위트 재삽입을 통한 모델 정확도 측정

배경: 개발자들은 코드 조각을 복사하여 새로운 문맥에 맞게 조정함으로써 빈번하게 코드를 재사용합니다. 코드 적응 (Code Adaptation)에 대한 대규모 언어 모델 (LLMs) 평가를 위한 기존 벤치마크들은 명시적인 단계별 지침에 의존하거나, 변수 연결 (Variable Wiring)과 같은 좁은 변경 유형만을 다루거나, 혹은 함수 수준의 입도 (Granularity)에서만 작동합니다. 요구되는 변경 사항이 다양하고 통제된 상황에서, 명시적인 편집 가이드 없이 LLM이 코드 조각을 얼마나 잘 적응시킬 수 있는지는 여전히 알려지지 않았습니다. 목적: 우리는 LLM이 어떠한 명시적인 편집 가이드 없이도 코드 조각을 대상 문맥에 맞게 적응시켜야 하는 지침 없는 (Instruction-free) 코드 스니펫 적응을 조사합니다. 우리는 세 가지 차원을 연구합니다: 어떤 적응 유형이 가장 어려운가 (RQ1), 성능이 적응 복잡도에 따라 어떻게 확장되는가 (RQ2), 그리고 모델이 주변 문맥을 얼마나 필요로 하는가 (RQ3). 방법: 우리는 강력한 테스트 커버리지를 가진 오픈 소스 저장소로부터 Java 코드 조각 데이터셋을 구축하고, 개발자들이 복사된 코드를 어떻게 적응시키는지에 대한 실증적 발견에서 도출된 적응 연산자 (Adaptation Operators) 분류 체계를 변이 주입 (Mutation-injection) 프레임워크를 사용하여 적용할 것입니다. 코드 조각 수준에서 작업하고 주입된 변경 사항을 제어함으로써, 모델이 수행해야 하는 적응이 무엇인지 정확히 알 수 있습니다. 변이되지 않은 조각은 모델이 수행해야 할 변경 사항에 대한 타당한 참조 역할을 합니다. LLM은 세 가지 문맥 입도 수준에 걸쳐 지침 없는 적응 작업에 대해 평가될 것입니다. 정확성은 주로 테스트 스위트 재삽입 (Test-suite re-insertion)을 통해 측정되며, 변이 수준 검사 (Mutation-level inspection)로 보완됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

변이 주입 프레임워크를 이용한 Java 코드 스니펫 적응에 대한 LLM 평가

요약

핵심 포인트

댓글