arXiv논문2026. 06. 23. 11:57

DataClaw0: 원시 스트림으로부터 에이전트 기반의 멀티모달 데이터 맞춤화 (Agentic Tailoring Multimodal Data

요약

DataClaw0는 방대한 멀티모달 스트림을 사용자 의도에 맞춰 능동적으로 정제하고 구조화하는 에이전트 기반 데이터 맞춤화 프레임워크를 제안합니다. 생성적 의미 합성 기술을 통해 고품질 데이터셋을 구축하고, SFT와 GRPO를 결합하여 복잡한 정제 작업에 최적화된 모델을 구현했습니다.

핵심 포인트

에이전트 기반의 능동적 멀티모달 데이터 정제 패러다임 제안
데이터 부족 문제를 해결하기 위한 2단계 생성적 의미 합성 파이프라인 설계
SFT와 GRPO를 활용한 DataClaw0-9B 모델의 정렬 성능 강화
데이터 정제 특화 벤치마크인 DataClaw0-val 구축
비디오 생성 및 GUI 탐색 등 다운스트림 작업에서의 효율적 적응 확인

방대한 비정형 멀티모달 스트림(multimodal streams)은 높은 "데이터 엔트로피(data entropy)"로 인해 효율적인 인간의 지식 습득과 고품질 AI 사후 학습(post-training) 모두를 저해합니다. 휴리스틱 규칙(heuristic rules)이나 일반적인 VLM(Vision-Language Models)에 크게 의존하는 기존의 수동적 주석(passive annotation) 패러다임은 비용이 많이 들고 단조로우며, 원시 데이터에 내재된 깊은 절차적 논리(procedural logic)를 끌어내는 데 실패합니다. 우리는 데이터 처리를 학습 가능한 능력으로 격상시켜, 다양한 사용자 및 다운스트림 의도(downstream intents)에 맞게 데이터를 능동적으로 정제하고 구조화하는 에이전트 기반 데이터 맞춤화(Agentic Data Tailoring)로의 패러다임 전환을 제안합니다. 이러한 고차원적 능력을 학습시키는 과정에서의 데이터 부족 병목 현상을 극복하기 위해, 우리는 생성적 의미 합성(generative semantic synthesis)을 결정론적인 사실적 앵커(Factual Anchors)에 접지(grounding)시키는 2단계 파이프라인을 설계하여, 5가지 핵심 물리 및 디지털 도메인을 아우르는 대규모 데이터셋을 생성했습니다. 이를 바탕으로, $\text{DataClaw}_0$-9B 모델은 지도 미세 조정(Supervised Fine-Tuning, SFT)과 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 시너지화하여, 복잡한 정제 및 맞춤화 의도에 대한 강력한 정렬(alignment)을 달성합니다. 이 능력을 체계적으로 정량화하기 위해, 우리는 데이터 정제에 특화된 최초의 벤치마크인 $\text{DataClaw}_0$-val을 구축했습니다. 결정적으로, 우리는 다운스트림 사후 학습(downstream post-training)을 궁극적인 검증 척도로 채택합니다. 비디오 생성, 실제 환경 VQA(Visual Question Answering), 그리고 GUI 탐색에 대한 평가 결과, $\text{DataClaw}_0$는 정보 밀도가 높은 맞춤형 데이터를 제공하여 제한된 학습 데이터 환경에서도 새로운 작업에 대한 모델의 효율적인 적응을 촉진함을 확인했습니다. 프로젝트 페이지: https://czjdsg.github.io/MakeAnyData

AI 자동 생성 콘텐츠

원문 바로가기

DataClaw0: 원시 스트림으로부터 에이전트 기반의 멀티모달 데이터 맞춤화 (Agentic Tailoring Multimodal Data

요약

핵심 포인트

댓글