텍스트 저장소 탐색을 넘어: 에이전트 기반 이슈 해결을 위한 이중 모달 구조적 추론

에이전트 기반 프로그램 수정 (agentic program repair) 분야의 최근 발전은 반복적인 저장소 탐색을 가능하게 함으로써 이슈 해결 능력을 크게 향상시켰습니다. 그러나 기존 방식은 주로 순차적인 텍스트 기반 코드 탐색에 의존하며, 이는 복잡하고 장기적인 의존성을 가진 대규모 장기 저장소 (long-horizon repositories)에 대해 추론하는 능력을 근본적으로 제한합니다. 이슈 해결 에이전트가 파편화된 텍스트 관찰을 통해 저장소를 탐색함에 따라, 모듈 구성, 호출 관계, 의존성 체인과 같은 구조적 정보는 상호작용 단계마다 반복적으로 재구성되어야 하며, 이는 종종 탐색 드리프트 (exploration drift)와 불완전한 로컬라이제이션 (localization)으로 이어집니다. 본 논문에서는 이슈 해결 에이전트의 저장소 탐색에 시각적 추론을 도입하는 이중 모달 구조적 스캐폴딩 (dual-modal structural scaffolding) 프레임워크인 DUALVIEW를 제안합니다. DUALVIEW는 네 가지 상호 보완적인 그래프 뷰인 모듈 결합 그래프 (Module Coupling Graph, MCG), 함수 호출 그래프 (Function Call Graph, FCG), 클래스 계층 그래프 (Class Hierarchy Graph, CHG), 프로그램 의존성 그래프 (Program Dependence Graph, PDG)를 통해 저장소 구조를 표현하며, 시각적 및 텍스트 응답을 제공하는 질의 가능한 인터페이스를 통해 이를 노출합니다. 에이전트는 일련의 텍스트 관찰로부터 저장소 구조를 재구성하는 대신, 코드 의존성의 지속적인 시각적 표현을 통해 직접 추론할 수 있어 장기적인 코드베이스에 대해 더욱 효과적인 탐색과 이해가 가능해집니다. 우리는 SWE-bench Pro 및 Verified에서 DUALVIEW를 평가했습니다. 결과에 따르면 DUALVIEW는 다양한 에이전트 아키텍처와 모델 제품군 전반에서 이슈 해결 성능을 일관되게 향상시킵니다. 추가적인 어블레이션 연구 (ablation studies)를 통해 이러한 이득이 텍스트 기반의 구조적 정보뿐만 아니라, 장기적인 저장소 탐색을 더 잘 지원하는 저장소 의존성의 시각적 외재화 (visual externalization)로부터 발생함을 입증했습니다.

Insights

텍스트 저장소 탐색을 넘어: 에이전트 기반 이슈 해결을 위한 이중 모달 구조적 추론

요약

핵심 포인트

댓글

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인