arXiv논문2026. 06. 23. 12:19

CodeTeam: 저장소 수준의 코드 생성을 위한 LLM 기반 멀티 에이전트 프레임워크

요약

CodeTeam은 자연어 요구사항으로부터 전체 소프트웨어 저장소를 구축하는 LLM 기반 멀티 에이전트 프레임워크입니다. 계획, 의사 결정, 구현 단계를 분리하여 파일 간 인터페이스와 의존성을 관리하며, 기존 모델 대비 높은 코드 생성 성능과 테스트 통과율을 입증했습니다.

핵심 포인트

계획, 의사 결정, 구현을 분리한 멀티 에이전트 구조 제안
Architect, CTO, Developer, QA 에이전트의 협업 체계 구축
SketchEval 벤치마크에서 SketchBLEU 점수 유의미한 개선
NL2Repo-Bench에서 높은 평균 테스트 통과율 달성
검색 증강 계획(RAP)과 프로젝트별 개발자 할당의 효과 확인

자연어 기반 저장소 생성 (NL2Repo)은 자연어 요구사항 문서로부터 전체 소프트웨어 저장소를 구축하는 시스템을 필요로 합니다. 함수 수준의 코드 생성과 비교했을 때, 이 작업은 더 긴 계획 범위 (planning horizons), 파일 간의 안정적인 인터페이스, 그리고 파일 간 불일치에 대한 반복적인 디버깅 (debugging)을 요구합니다. 이러한 과제를 해결하기 위해, 우리는 계획 (planning), 의사 결정 (decision making), 그리고 구현 (implementation)을 별도의 조정된 단계로 분리하는 LLM 기반 멀티 에이전트 프레임워크인 CodeTeam을 제안합니다. 계획 단계에서는 여러 Architect 에이전트가 (선택적으로 검색된 설계 참조를 바탕으로) 서로 경쟁하는 소프트웨어 설계 스케치 (SDS, software design sketches)를 초안합니다. 그런 다음 CTO 에이전트가 가장 유망한 SDS를 평가, 선택 및 정규화하여 파일 소유권, 공개 인터페이스 및 의존성 제약 조건을 명시하는 기계 검증 가능한 계약 (contract)으로 변환합니다. 구현 단계에서는 Developer 에이전트가 제한된 컨텍스트와 경량화된 Git 기반 조율을 갖춘 의존성 인식 스케줄러 (dependency-aware scheduler) 하에서 코드를 생성하며, QA 에이전트는 테스트를 실행하고 반복적인 수리 (repairs)를 주도합니다. 합성 기반의 SketchEval 벤치마크에서, 우리는 CodeTeam의 프롬프트 엔지니어링 (PE, prompt-engineering) 및 지도 미세 조정 (SFT, supervised fine-tuning) 변형 모델을 대응하는 CodeS 변형 모델과 명시적으로 비교하였으며, CodeTeam은 SketchBLEU를 각각 절대값 기준 4.1점과 2.9점 개선했습니다. 외부 검증 프로토콜로 사용된 실행 기반의 NL2Repo-Bench 벤치마크에서, CodeTeam은 두 설정 모두에서 가장 높은 평균 테스트 통과율 (34.6% PE, 42.3% SFT)을 달성하여, 스케치 개선이 상위 테스트 스위트 하에서의 기능적 정확성으로 확장됨을 확인했습니다. 어블레이션 (Ablation) 결과에 따르면, 프로젝트별 개발자 할당과 검색 증강 계획 (retrieval-augmented planning)이 각각 SketchBLEU 개선에 상당한 기여를 하는 것으로 나타났습니다 (상대적으로 각각 9.9% 및 8.1%). CodeTeam과 실험 결과는 https://github.com/WhitenWhiten/CodeTeam 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

CodeTeam: 저장소 수준의 코드 생성을 위한 LLM 기반 멀티 에이전트 프레임워크

요약

핵심 포인트

댓글