텍스트 저장소 탐색을 넘어: 에이전트 기반 이슈 해결을 위한 이중 모달 구조적 추론
요약
에이전트 기반 프로그램 수정 시 발생하는 텍스트 기반 탐색의 한계를 극복하기 위해, 시각적 추론을 도입한 DUALVIEW 프레임워크를 제안합니다. 네 가지 그래프 뷰를 통해 코드의 구조적 정보를 시각화하여 대규모 저장소에서의 이슈 해결 성능을 높였습니다.
핵심 포인트
- 텍스트 기반 탐색의 한계인 탐색 드리프트 및 불완전한 로컬라이제이션 문제 해결
- MCG, FCG, CHG, PDG 등 네 가지 그래프 뷰를 통한 구조적 정보 시각화
- 시각적 외재화를 통해 장기적인 코드베이스에 대한 효과적인 추론 지원
- SWE-bench Pro 및 Verified 평가에서 다양한 모델의 성능 향상 입증
에이전트 기반 프로그램 수정 (agentic program repair) 분야의 최근 발전은 반복적인 저장소 탐색을 가능하게 함으로써 이슈 해결 능력을 크게 향상시켰습니다. 그러나 기존 방식은 주로 순차적인 텍스트 기반 코드 탐색에 의존하며, 이는 복잡하고 장기적인 의존성을 가진 대규모 장기 저장소 (long-horizon repositories)에 대해 추론하는 능력을 근본적으로 제한합니다. 이슈 해결 에이전트가 파편화된 텍스트 관찰을 통해 저장소를 탐색함에 따라, 모듈 구성, 호출 관계, 의존성 체인과 같은 구조적 정보는 상호작용 단계마다 반복적으로 재구성되어야 하며, 이는 종종 탐색 드리프트 (exploration drift)와 불완전한 로컬라이제이션 (localization)으로 이어집니다. 본 논문에서는 이슈 해결 에이전트의 저장소 탐색에 시각적 추론을 도입하는 이중 모달 구조적 스캐폴딩 (dual-modal structural scaffolding) 프레임워크인 DUALVIEW를 제안합니다. DUALVIEW는 네 가지 상호 보완적인 그래프 뷰인 모듈 결합 그래프 (Module Coupling Graph, MCG), 함수 호출 그래프 (Function Call Graph, FCG), 클래스 계층 그래프 (Class Hierarchy Graph, CHG), 프로그램 의존성 그래프 (Program Dependence Graph, PDG)를 통해 저장소 구조를 표현하며, 시각적 및 텍스트 응답을 제공하는 질의 가능한 인터페이스를 통해 이를 노출합니다. 에이전트는 일련의 텍스트 관찰로부터 저장소 구조를 재구성하는 대신, 코드 의존성의 지속적인 시각적 표현을 통해 직접 추론할 수 있어 장기적인 코드베이스에 대해 더욱 효과적인 탐색과 이해가 가능해집니다. 우리는 SWE-bench Pro 및 Verified에서 DUALVIEW를 평가했습니다. 결과에 따르면 DUALVIEW는 다양한 에이전트 아키텍처와 모델 제품군 전반에서 이슈 해결 성능을 일관되게 향상시킵니다. 추가적인 어블레이션 연구 (ablation studies)를 통해 이러한 이득이 텍스트 기반의 구조적 정보뿐만 아니라, 장기적인 저장소 탐색을 더 잘 지원하는 저장소 의존성의 시각적 외재화 (visual externalization)로부터 발생함을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기