arXiv논문2026. 06. 26. 11:41

ConcoLixir: Python Concolic Testing을 위한 반응형 LLM 발견 오라클 (Discovery Oracles)

요약

Python Concolic Testing의 한계를 극복하기 위해 LLM을 '발견 오라클'로 활용하는 ConcoLixir를 제안합니다. LLM은 심볼릭 실행이 어려운 의미론적 장벽을 넘을 수 있도록 초기 시드 생성 및 구체적 입력을 제안하여 코드 커버리지를 크게 향상시킵니다.

핵심 포인트

LLM을 솔버 대체재가 아닌 발견 오라클로 활용
Python 라이브러리 호출 및 의미론적 연산의 한계 극복
베이스라인 대비 평균 라인 커버리지 최대 17%p 향상
심볼릭 추론을 보완하는 제한된 LLM 발견 방식 제시

Concolic testing (혼합 실행 테스트)은 구체적 실행 (concrete execution)과 심볼릭 제약 조건 해결 (symbolic constraint solving)을 결합하지만, Python 프로그램은 반복적인 한계를 드러냅니다. 라이브러리 호출은 심볼릭 변수 (symbolic variables)를 구체적인 값 (concrete values)으로 강등시킬 수 있습니다. 정규 표현식 (Regular expressions), 체크섬 (checksums), 파서 (parsers) 및 기타 의미론적 연산 (semantic operations)은 해결하기 어려울 수 있으며, 탐색이 이미 커버된 경로에서 정체될 수 있습니다. 우리는 Python concolic execution을 위한 반응형 LLM 확장 기능인 ConcoLixir를 제시합니다. LLM은 솔버 (solver)나 정답 오라클 (correctness oracle)을 대체하는 것이 아니라, 발견 오라클 (discovery oracle)로서 작동합니다. LLM은 초기 시드 (initial seeds)를 생성하고, 솔버 실패 후 구체적인 입력 (concrete inputs)을 제안하며, 커버리지 (coverage)가 정체될 때 미커버 코드 (uncovered code)를 타겟팅합니다. 각 후보는 concolically 실행되며, 관찰된 커버리지와 수집된 경로 제약 조건 (path constraints)만이 이후의 탐색을 가이드합니다. 합성 (synthetic), 실제 (real-world), 라이브러리 타겟 전반에 걸쳐, ConcoLixir는 LLM 오라클이 없는 베이스라인 concolic tester에 비해 평균 라인 커버리지 (mean line coverage)를 각각 8.6, 15.1, 17.0 퍼센트 포인트 향상시켰습니다. 이러한 이득은 의미론적 장벽 (semantic barriers)과 라이브러리 경계 (library boundaries) 근처에서 가장 강력하게 나타나며, 전체 평가 비용은 API 비용으로 1.63달러가 소요되었습니다. 이러한 결과는 제한된 LLM 발견 (bounded LLM discovery)이 심볼릭 추론 (symbolic reasoning)을 대체하지 않고도 이를 보완할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

ConcoLixir: Python Concolic Testing을 위한 반응형 LLM 발견 오라클 (Discovery Oracles)

요약

핵심 포인트

댓글