arXiv논문2026. 06. 23. 13:21

파편에서 경로로: 대규모 산업용 코드베이스를 위한 태스크 수준의 컨텍스트 복구

요약

대규모 산업용 코드베이스 이해를 위해 태스크 수준의 컨텍스트를 복구하는 DeepDiscovery 방법론을 제안합니다. 2단계 Location-Inference 프레임워크를 통해 높은 신뢰도의 태스크 앵커를 찾고 관련 컨텍스트를 복구하여 코딩 에이전트의 성능을 높입니다.

핵심 포인트

DeepDiscovery는 2단계 Location-Inference 프레임워크를 사용함
대규모 저장소 수준의 태스크 관련 컨텍스트 복구 능력 향상
SWE-bench Verified 평가에서 기존 베이스라인 대비 8.2%p 높은 해결률 달성
AI 코딩 시스템의 전체 재현율(Full Recall Rate)을 유의미하게 개선

대규모 언어 모델(Large language models)은 소프트웨어 공학 (SE) 태스크에서 강력한 성능을 보여주었지만, 대규모 산업용 저장소(repositories)를 이해하는 것은 여전히 어려운 과제로 남아 있습니다. 기존 방법들은 종종 국소적인 파편(fragments)만을 검색하며, 복잡한 저장소 수준(repository-level) 태스크에 필요한 더 넓은 태스크 관련 컨텍스트(task-relevant context)를 복구하는 데 실패합니다. 우리는 대규모 산업용 코드베이스를 위한 태스크 수준의 저장소 이해 방법론인 DeepDiscovery를 제안합니다. DeepDiscovery는 2단계 extit{Location--Inference} 프레임워크를 사용하여 예산 제약 조건 하에서 높은 신뢰도의 태스크 앵커(task anchors)를 국지화하고, 다중 관계 저장소 구조(multi-relational repository structure) 전반에 걸쳐 더 넓은 태스크 관련 컨텍스트를 복구합니다. 통제된 메서드 수준(method-level) 평가, 조직 내부의 산업용 저장소 이해 시나리오, 그리고 SWE-bench Verified에 대한 엔드투엔드(end-to-end) 평가 전반에 걸쳐, DeepDiscovery는 태스크 관련 파일 복구 및 다운스트림 SE 성능을 일관되게 향상시킵니다. 27개의 중간 규모 태스크에서 DeepDiscovery는 오프라인 전처리 없이 5개의 대표적인 베이스라인(baselines) 중 가장 우수한 파일 복구 품질을 달성했습니다. 27개의 중간 규모 태스크와 40개의 대규모 태스크를 포함하는 프로덕션 규모의 통합 코드베이스 생태계 내 조직 내부 산업용 태스크에서, DeepDiscovery는 여러 AI 코딩 시스템 전반에 걸쳐 전체 재현율(Full Recall Rate)을 향상시켰으며, 대규모 하위 프로젝트에서는 1.6~~9.2 퍼센트 포인트, 중간 규모 하위 프로젝트에서는 2.5~~7.4 퍼센트 포인트의 절대적 이득을 보였습니다. SWE-bench Verified에 대한 통제된 엔드투엔드 평가에서 DeepDiscovery를 탑재한 시스템은 78.6%의 해결률(Solve Rate)을 달성하여, 해당 베이스라인보다 8.2 퍼센트 포인트 높은 성능을 기록했습니다. 이러한 결과는 더 강력한 태스크 수준의 저장소 이해가 복잡한 SE 태스크에서 코딩 에이전트(coding-agent)의 성능을 향상시킬 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

파편에서 경로로: 대규모 산업용 코드베이스를 위한 태스크 수준의 컨텍스트 복구

요약

핵심 포인트

댓글