arXiv논문2026. 06. 05. 13:45

에이전트 기반 데이터 분석을 위한 비지도 기술 발견 (Unsupervised Skill Discovery)

요약

DataCOPE는 라벨 없이도 데이터 분석 에이전트가 재사용 가능한 기술을 스스로 발견할 수 있게 하는 비지도 학습 프레임워크입니다. 검증기 신호를 활용해 탐색 궤적의 품질을 평가하며, 보고서 작성 및 추론 스타일 분석에서 성능을 크게 향상시킵니다.

핵심 포인트

비지도 검증기 가이드 기반의 기술 발견 프레임워크 DataCOPE 제안
모델 파라미터 업데이트 없이 추론 시간 기술 증강 가능
보고서 스타일 분석에서 평균 9.71% 성능 향상
추론 스타일 분석에서 평균 32.30% 성능 향상

추론 시간 기술 증강 (Inference-time skill augmentation)은 모델 파라미터를 업데이트하지 않고 재사용 가능한 절차적 지식을 주입함으로써 데이터 분석 에이전트 (data-analytic agents)를 개선하는 가벼운 방법을 제공합니다. 그러나 신뢰할 수 있는 감독 (supervision)은 비용이 많이 들고 성공 기준이 분석 형식에 따라 다르기 때문에, 데이터 분석을 위한 효과적인 기술을 발견하는 것은 여전히 어려운 과제로 남아 있습니다. 이는 라벨이 없는 탐색 (unlabeled exploration)만으로 어떻게 재사용 가능한 데이터 분석 기술을 발견할 것인가라는 핵심적인 질문을 제기합니다. 우리는 데이터 분석 에이전트를 위한 비지도 검증기 가이드 기술 발견 (unsupervised verifier-guided skill discovery) 프레임워크인 DataCOPE를 제안합니다. DataCOPE는 탐색 궤적 (exploration trajectories)으로부터 검증기 신호 (verifier signals)를 도출하며, 이를 사용하여 궤적 간의 상대적 품질이나 일치성 (agreement)을 특징짓습니다. 이 프레임워크는 궤적 생성을 위한 데이터 분석 에이전트 (Data-Analytic Agent), 신호 추출을 위한 비지도 검증기 (Unsupervised Verifier), 그리고 대조적 기술 증류 (contrastive skill distillation)를 위한 기술 관리자 (Skill Manager)를 반복적으로 조정합니다. 보고서 스타일의 분석을 위해, 우리는 검증기를 작업별 기준을 도출하고, 검증 가능한 커버리지 (verifiable coverage)에 따라 보고서에 점수를 매기며, 체크리스트를 반복적으로 개선하는 적응형 체크리스트 검증기 (Adaptive Checklist Verifier)로 구현합니다. 추론 스타일의 분석을 위해, 우리는 정답 일치도에 따라 궤적을 그룹화하고 자기 일관성 (self-consistency)을 보조 신호로 사용하는 정답 일치 검증기 (Answer Agreement Verifier)로 구현합니다. 우리는 Deep Data Research의 보고서 스타일 분석과 DABStep의 추론 스타일 분석을 통해 DataCOPE를 평가합니다. 두 설정 모두에서 DataCOPE는 베이스라인 대비 홀드아웃 성능 (held-out performance)을 일관되게 향상시킵니다. 네 가지 모델 설정을 평균했을 때, DataCOPE는 보고서 스타일 작업에서 평균 점수를 9.71%, 추론 스타일 작업에서 32.30% 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

에이전트 기반 데이터 분석을 위한 비지도 기술 발견 (Unsupervised Skill Discovery)

요약

핵심 포인트

댓글