arXiv논문2026. 06. 19. 10:35

OpenSIL 펌웨어 내 LLM 생성 유닛 테스트를 위한 라이브러리 인식 Doubles 및 반복적 수정 (Iterative Repair) 연구

요약

AMD의 openSIL 펌웨어 환경에서 LLM 기반 멀티 에이전트 파이프라인을 활용해 유닛 테스트를 자동 생성하는 연구를 소개합니다. 라이브러리 인식 더블(Doubles) 생성과 반복적 수정 루프를 통해 컴파일 실패를 줄이고 높은 라인 커버리지를 달성했습니다.

핵심 포인트

LLM 가이드 기반 멀티 에이전트 파이프라인을 통한 펌웨어 UT 자동화
라이브러리 인식 기반의 스텁, 모크, 페이크 생성 기술 적용
빌드 로그 및 커버리지 피드백을 활용한 반복적 컴파일-수정 루프 구현
라인 커버리지 가이드 적용 시 평균 98.8%의 높은 커버리지 달성

저수준 C 펌웨어의 변경 사항을 검증하는 것은 유닛 테스트 (UTs)가 엄격한 빌드 제약 조건 하에서 취약하기 때문에 비용이 많이 듭니다. 헤더 누락, 미해결 심볼 (unresolved symbols), 의존성 불일치 등으로 인해 컴파일 및 링킹이 빈번하게 실패하기 때문입니다. 본 연구는 Advanced Micro Devices (AMD)에서 유지 관리하는 Open-Source Silicon Initialization Library (openSIL) 펌웨어 코드베이스를 위해, 대규모 언어 모델 (LLM) 가이드 기반의 멀티 에이전트 파이프라인을 통해 수동 노력을 줄이는 자동화된 UT 작성 워크플로우를 소개합니다. 이 워크플로우는 테스트 스캐폴드 (scaffolds)의 자동 생성, 라이브러리 인식 (library-aware) 기반의 스텁 (stubs), 모크 (mocks), 페이크 (fakes) 생성 또는 재사용, 그리고 빌드 로그 및 라인 커버리지 (line-coverage) 피드백에 의해 구동되는 반복적 컴파일-디스패치 수정 루프 (iterative compile-dispatch repair loop)를 결합합니다. 우리는 컴파일 성공 여부, 수정 반복 횟수, 디스패치 성공 여부, 라인 커버리지를 사용하여 이 접근 방식을 평가하며, 시간, 비용, 토큰 사용량을 보조 지표로 활용합니다. 테스트 대상인 76개 함수 중, 이 워크플로우는 73개 함수에 대해 컴파일 가능한 UT를 생성했습니다. 라인 커버리지 가이드나 검색 증강 (retrieval augmentation)이 없는 구성에서는 평균 라인 커버리지가 73.9%에 도달했습니다. 두 가지 구성을 모두 적용하여 평가한 48개 함수 서브셋에서는, 라인 커버리지 가이드만 사용했을 때 평균 라인 커버리지가 98.8%에 도달했으며, 벡터 데이터베이스 (vector-database) 검색과 결합했을 때는 94.7%에 도달했습니다. 결과는 자동화된 생성 및 수정 파이프라인이 수동 디버깅 노력을 줄이면서도, 제약이 많은 펌웨어 환경에서 UT 생성 효율성과 커버리지를 실질적으로 향상시킬 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

OpenSIL 펌웨어 내 LLM 생성 유닛 테스트를 위한 라이브러리 인식 Doubles 및 반복적 수정 (Iterative Repair) 연구

요약

핵심 포인트

댓글