본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 28. 12:10

자동 워크플로 실행을 위한 적응형 멀티모달 에이전트 기반 프레임워크

요약

기존의 선형적 에이전트 방식의 한계를 극복하기 위해 그래프 기반의 적응형 멀티모달 멀티 에이전트 프레임워크를 제안합니다. 오프라인 탐색을 통해 구축된 토폴로지 지식 베이스와 적응형 RAG를 결합하여 복잡한 워크플로를 자율적으로 수행합니다.

핵심 포인트

  • 기존의 이산적/선형적 에피소드 방식의 한계 해결
  • 실행 로그 기반의 토폴로지 지식 베이스 구축
  • 적응형 RAG와 폐쇄 루프 협업 검증 프로토콜 활용
  • 제한된 데이터로도 높은 신뢰성과 의미론적 인식 유지

현대 정보 시스템은 복잡한 워크플로 (Workflow)를 탐색할 수 있는 자율 에이전트 (Autonomous Agents)를 필요로 하지만, 현재의 방법론들은 구조화된 메타데이터 파싱 (Metadata Parsing)에서 일반적인 환경 인지로 전환하는 과정에서 종종 어려움을 겪습니다. MLLM (Multimodal Large Language Models)의 통합으로 에이전트가 GUI (Graphical User Interface)와 직접 상호작용할 수 있게 되었으나, 기존의 접근 방식들은 일반적으로 작업 시퀀스 (Task Sequences)를 이산적이고 선형적인 에피소드 (Episodes)로 취급합니다. 이러한 파편화는 에이전트가 기저에 깔린 전이 토폴로지 (Transition Topology)를 포착하는 것을 방해하며, 새로운 시나리오나 비정상 상태 (Non-stationary Scenarios)에서의 효과를 제한합니다. 이를 해결하기 위해, 우리는 별도의 2단계 파이프라인 (Pipeline)을 통해 자동 워크플로 실행을 달성하는 새로운 멀티모달 멀티 에이전트 (Multimodal Multi-agent) 프레임워크를 제안합니다. 첫째, 오프라인 탐색 (Offline Discovery) 단계 동안, 아키텍처는 파편화된 실행 로그 (Execution Logs)로부터 토폴로지 지식 베이스 (Topological Knowledge Base)를 적응형으로 구축합니다. 추론 (Inference) 단계에서 에이전트는 이 고정된 사전 구축 그래프 (Graph) 상에서 적응형 검색 증강 생성 (Adaptive Retrieval-Augmented Generation, RAG)을 활용하며, 폐쇄 루프 협업 검증 프로토콜 (Closed-loop Collaborative Verification Protocol)과 결합하여 동적으로 스스로를 교정하고 탐색합니다. 이러한 그래프 기반 접근 방식은 우수한 작업 분해 (Task Decomposition) 및 적응형 탐색 성능을 촉진합니다. 우리는 실제 환경에서 우리의 프레임워크를 검증하였으며, 제한된 학습 데이터로도 높은 신뢰성과 의미론적 인식 (Semantic Awareness)을 유지할 수 있는 능력을 입증하였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0