arXiv논문2026. 06. 02. 10:14

샌드박스 환경의 코딩 에이전트는 경쟁력 있는 옴니모달 (Omni-modal) 작업 해결사이다

요약

텍스트와 이미지, 샌드박스 도구 사용 능력을 갖춘 코딩 에이전트가 네이티브 옴니모달 모델만큼 강력한 성능을 낼 수 있음을 입증했습니다. 이들은 미디어 스트림을 직접 처리하는 대신 코드를 통해 정보를 검색하고 처리하는 방식으로 문제를 해결합니다.

핵심 포인트

코딩 에이전트가 오디오-비디오 벤치마크에서 SOTA 모델과 대등한 성능 달성
옴니모달 작업을 검색 및 정보 처리 문제로 전환하여 효율성 극대화
OmniCoding 데이터셋 및 Code-X 훈련 레시피 도입
실제 세계 작업을 위한 프로세스 수준 벤치마크 TerminalBench-O 제안

멀티모달 LLM (Multimodal LLMs)이 비디오와 오디오를 점점 더 목표로 함에 따라, 이러한 작업에는 네이티브 옴니모달 (Native omnimodal) 모델이 필요하다고 흔히 가정됩니다. 우리는 이것이 항상 사실은 아님을 보여줍니다. 텍스트+이미지 (Text+image) 접근 권한과 샌드박스화된 도구 사용 (Sandboxed tool-use) 인터페이스만을 가진 코딩 에이전트가 여러 오디오-비디오 벤치마크에서 SOTA (State-of-the-art) 네이티브 옴니모달 모델 및 사전 정의된 멀티모달 에이전트 스캐폴드 (Multimodal agent scaffolds)와 대등하거나 여러 설정에서 이를 능가할 수 있음을 보여줍니다. 우리의 궤적 분석 (Trajectory analysis)에 따르면, 이들의 강점은 코드를 작성하고 도구를 조율하여 전사 데이터 (Transcripts), 프레임 (Frames) 및 기타 모달리티 신호 (Modality signals)로부터 관련 증거를 추출하는 데서 오며, 이를 통해 옴니모달 작업을 전체 미디어 스트림을 흡수하는 방식이 아닌 검색 및 정보 처리 문제로 전환합니다. 우리는 더 나아가 실패 분류학 (Failure taxonomy)과 프로세스 수준의 추적 분석 (Process-level trace analysis)을 통해 이들의 한계를 규명하며, 인간이 작성한 기술 및 자기 증류 (Self-distilled) 기술을 포함한 단순한 기술 주입 (Skill injection)이 성능을 실질적으로 향상시킨다는 것을 보여줍니다. 오픈 소스 유도 (Open-source elicitation)를 탐구하기 위해, 우리는 OmniCoding 궤적 데이터셋과 검증 가능한 보상 (Verifiable reward)을 포함한 훈련 레시피인 Code-X를 도입하고, Qwen-3.5-9B 및 Qwen-3.6-27B에 대한 베이스라인을 제공합니다. 마지막으로, 우리는 다음 개척지가 다중 모달리티 처리 (Many-modality processing)라고 주장하며, 실제 세계의 옴니모달 처리 작업을 위한 프로세스 수준 벤치마크인 TerminalBench-O를 소개합니다. 코드는 https://github.com/Dongping-Chen/OmniCoding 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

샌드박스 환경의 코딩 에이전트는 경쟁력 있는 옴니모달 (Omni-modal) 작업 해결사이다

요약

핵심 포인트

댓글