arXiv논문2026. 06. 01. 11:03

어떠한 장면에서도 탐지하기: 경험 인식 추론을 활용한 객체 탐지를 위한 에이전트 기반 프레임워크

요약

DetAS는 MLLM을 중앙 에이전트로 활용하여 이미지 복원과 탐지 과정을 동적으로 구성하는 에이전트 기반 객체 탐지 프레임워크입니다. 경험 인식 추론을 도입한 DetAS-X는 기존 MLLM 기반 탐지기 대비 F1 점수를 대폭 향상시키며 동적 환경에서의 뛰어난 적응력을 입증했습니다.

핵심 포인트

MLLM을 에이전트로 활용한 적응형 탐지 워크플로우 제안
자기 적응형 이미지 복원 및 다중 전문성 탐지 메커니즘
경험 수확을 통한 의사 결정 정책의 점진적 개선
기존 모델 대비 F1 점수 평균 28.36% 향상 달성

실제 환경에서의 객체 탐지 (Object detection)는 다양한 이미지 열화 (degradations)와 이질적인 객체 분포 (heterogeneous object distributions)로 인해 여전히 도전적인 과제로 남아 있으며, 이는 기존 탐지기 (detectors)의 일반화 (generalization)를 크게 저해합니다. 장면 특화 표현 학습 (scene-specific representation learning) 및 엔드 투 엔드 파이프라인 (end-to-end pipeline) 설계를 포함한 전통적인 접근 방식은 사전 정의된 조건에 의존하고 동적인 환경에 대한 적응력이 부족하다는 본질적인 한계가 있습니다. 본 논문에서는 객체 탐지를 동적인 의사 결정 과정 (dynamic decision process)으로 공식화하는 에이전트 기반 탐지 프레임워크인 DetAS를 제안합니다. DetAS는 정적인 파이프라인에 의존하는 대신, 멀티모달 거대 언어 모델 (Multimodal Large Language Model, MLLM)을 중앙 에이전트로 활용하여 복원 모듈 (restoration modules)과 특화된 탐지기 (specialized detectors)로 구성된 툴박스 (toolbox)에서 탐지 워크플로우를 적응적으로 구성합니다. 구체적으로, DetAS는 두 가지 핵심 구성 요소로 이루어져 있습니다: 다운스트림 탐지 (downstream detection)를 위해 이미지를 강화할지 여부와 그 방법을 동적으로 결정하는 자기 적응형 이미지 복원 (Self-Adaptive Image Restoration), 그리고 여러 도메인 특화 탐지기를 통합하고 인스턴스 수준의 추론 (instance-level reasoning)을 통해 예측을 해결하는 다중 전문성 탐지 (Multi-Expertise Detection)입니다. 미세한 조건 하에서 의사 결정 품질을 더욱 향상시키기 위해, 우리는 자기 진화형 경험 수확 (Self-Evolving Experience Harvesting)을 도입하고, 소수의 주석 데이터 (annotated data) 세트로부터 노드 수준의 의사 결정 경험을 축적하여 추론 중에 경험 인식 추론 (experience-aware reasoning)을 가능하게 하는 DetAS-X로 프레임워크를 확장합니다. 이 메커니즘을 통해 시스템은 의사 결정 정책 (decision policy)을 점진적으로 개선하고 다양한 실제 시나리오에 적응할 수 있습니다. 6개의 까다로운 벤치마크 (benchmarks)에 대한 광범위한 실험 결과, DetAS-X는 기존 MLLM 기반 탐지기들을 크게 능가하며 F1 점수에서 평균 28.36%의 향상을 달성하였고, DarkFace에서는 최대 37.01%의 이득을 보였습니다. 이러한 결과는 에이전트 기반 탐지 (agentic detection)의 가능성을 입증하며, 복잡하고 동적인 환경에서의 적용을 위한 견고한 토대를 마련합니다.

AI 자동 생성 콘텐츠

원문 바로가기

어떠한 장면에서도 탐지하기: 경험 인식 추론을 활용한 객체 탐지를 위한 에이전트 기반 프레임워크

요약

핵심 포인트

댓글