arXiv논문2026. 06. 23. 12:50

Holmes: 산업 규모의 혼합 언어 모바일 크래시를 위한 멀티모달 에이전트 기반 진단

요약

Holmes는 대규모 혼합 언어 모바일 환경의 크래시 진단을 위해 멀티모달 런타임 신호를 활용하는 멀티 에이전트 시스템입니다. 계층적 아키텍처를 통해 복잡한 코드베이스 내 근본 원인을 자동 분석하며, 실제 데이터 적용 결과 디버깅 시간을 98% 이상 단축했습니다.

핵심 포인트

멀티모달 런타임 신호(로그, 스택 트레이스 등)를 활용한 자동 근본 원인 분석
Retrieve-Explore-Reason 계층적 아키텍처로 저수준 아티팩트 분석 가능
7,000만 라인 규모의 대규모 코드베이스에서 비지역적 결함 식별
WeChat 데이터 기준 결함 위치 파악 정확도 87.6% 달성
평균 조사 시간을 약 77초로 단축하여 디버깅 효율 극대화

초대형 규모의 산업용 애플리케이션에서 모바일 크래시(Crash)를 진단하는 것은 방대한 코드 양, 혼합 언어(Mixed-language) 환경의 복잡성, 그리고 로컬 환경에서의 실패 재현 불가능성으로 인해 매우 어려운 과제입니다. 기존의 정적 분석(Static analysis)은 확장성 문제로 어려움을 겪으며, 기존의 LLM 기반 에이전트들은 사후 분석(Post-mortem) 시나리오에서 사용할 수 없는 재현 가능한 환경에 의존하는 경우가 많습니다. 본 논문에서는 재현 없이도 실패 컨텍스트를 재구성하기 위해 스택 트레이스(Stack traces), 로그(Logs), 스레드 상태(Thread states)와 같은 멀티모달 런타임 신호(Multimodal runtime signals)를 합성하여 근본 원인 분석(Root cause analysis)을 자동화하는 멀티 에이전트 시스템인 Holmes를 제시합니다. Holmes는 계층적 Retrieve-Explore-Reason 아키텍처를 도입하여 저수준 아티팩트(Low-level artifacts, 예: 레지스터, 어셈블리)를 활용함으로써 오픈 소스 비즈니스 로직과 폐쇄형 시스템 프레임워크 사이의 의미론적 격차(Semantic gap)를 해소합니다. 런타임 단서(Runtime clues)를 사용하여 탐색 공간을 동적으로 압축함으로써, Holmes는 7,000만 라인 규모의 코드베이스를 정밀하게 탐색하여 비지역적 결함(Non-local defects)을 식별합니다. WeChat의 실제 크래시 데이터를 통해 평가한 결과, Holmes는 함수 수준의 결함 위치 파악(Fault localization)에서 87.6%의 정확도를 달성하였으며, 평균 조사 시간을 98% 이상 단축(약 77초로 감소)하여 노동 집약적인 디버깅을 효율적인 검증 워크플로우로 전환하는 데 탁월한 효과를 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Holmes: 산업 규모의 혼합 언어 모바일 크래시를 위한 멀티모달 에이전트 기반 진단

요약

핵심 포인트

댓글