arXiv논문2026. 06. 19. 10:31

Phoenix: 멀티 에이전트 LLM을 통한 안전한 GitHub 이슈 해결

요약

Phoenix는 GitHub 이슈 해결을 위해 6개의 전문 에이전트로 구성된 멀티 에이전트 LLM 시스템입니다. 7단계의 안전 제어 메커니즘을 통해 코드 수정부터 PR 생성까지의 과정을 자동화하며, 높은 정확도와 회귀 방지 성능을 보여줍니다.

핵심 포인트

6개의 전문 에이전트(Planner, Coder 등)가 협업하는 구조
7단계 계층화된 안전 제어를 통한 안정적인 코드 수정 보장
SWE-bench Lite 테스트에서 75%의 오라클 해결 성능 달성
실제 파일럿 테스트에서 100%의 정확성 보존(CP) 기록

우리는 분류(triage)부터 풀 리퀘스트(Pull Request, PR) 생성에 이르기까지 GitHub 이슈를 해결하는 멀티 에이전트 LLM 시스템인 Phoenix를 선보입니다. Phoenix는 7개의 계층화된 안전 제어(safety controls)와 베이스라인 인지 테스트 평가 전략(baseline-aware test evaluation strategy)을 결합합니다. Phoenix는 작업을 6개의 전문화된 에이전트로 분해합니다. Planner(플래너), reproducer(재현자), coder(코더), tester(테스터), failure analyst(실패 분석가) 및 Pull Request (PR) 에이전트가 레이블 기반의 GitHub 웹훅 상태 머신(webhook state machine)에 의해 모두 조정됩니다. 모든 변경 사항은 풀 리퀘스트가 열리기 전에 베이스라인 테스트 실행과 대조하여 확인됩니다. 프로덕션 웹훅 경로에서 실행된 SWE-bench Lite의 24개 인스턴스 슬라이스(slice)에 대해, Phoenix는 성공적인 실행에서 pass-to-pass 회귀(regressions) 없이 75%의 인스턴스를 오라클 해결(oracle-resolves)합니다. 이 큐레이션된 슬라이스는 전체 분할 리더보드(full-split leaderboard) 결과와 직접적으로 비교할 수 없으며, 우리는 비교의 한계에 대해 논의합니다. 14개 저장소(repositories)에 걸친 42개의 실제 이슈에 대한 보완적인 파일럿 테스트 결과, 100%의 정확성 보존(Correctness Preservation, CP; 하드 티어 평균 122초)을 달성했습니다. 수동 검사 결과, 생성된 풀 리퀘스트의 약 절반은 목표에 부합하는 적절한 수정 사항임을 보여줍니다. 나머지 절반은 코드를 잘못된 경로에 배치하는데, 이는 우리가 검색(retrieval)을 통해 해결하고 있는 플래너의 로컬라이제이션(localization) 한계입니다. 또한 우리는 각 안전 메커니즘의 동기가 된 배포 실패 모드(WAF 필터링, 토큰 만료, 권한 경계, 불안정한 CI)에 대해서도 보고합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Phoenix: 멀티 에이전트 LLM을 통한 안전한 GitHub 이슈 해결

요약

핵심 포인트

댓글