arXiv논문2026. 06. 15. 11:37

AudioDER: 사후 학습(Post-Training)을 위한 대규모 오디오-언어 모델용 중복 제거 강화 추론 데이터셋

요약

대규모 오디오-언어 모델(LALMs)의 추론 능력을 향상시키기 위해 중복을 제거하고 사고 사슬(CoT)을 포함한 새로운 데이터셋 AudioDER를 제안합니다. 음향 유사도 기반의 중복 제거와 Qwen3-30B를 활용한 데이터 구축을 통해 모델의 성능을 효과적으로 개선합니다.

핵심 포인트

기존 오디오-언어 데이터셋의 중복성 문제 해결을 위한 파이프라인 제안
음향 유사도 기반 중복 제거를 통한 데이터 다양성 및 품질 확보
Qwen3-30B를 활용하여 추론 지향적인 사고 사슬(CoT) 근거 생성
AudioDER 데이터셋 적용 시 주요 오디오 추론 벤치마크 성능 향상 확인

대규모 오디오-언어 모델 (Large Audio-Language Models, LALMs)은 광범위한 오디오 이해 작업에서 강력한 성능을 보여주었으나, 여전히 복잡한 오디오 추론에는 어려움을 겪고 있습니다. 이러한 능력을 향상시키는 실질적인 방법은 사후 학습 (Post-training)이며, 그 효과는 학습 데이터의 품질과 다양성에 결정적으로 의존합니다. 그러나 기존의 오디오-언어 데이터셋은 상당한 중복성을 포함하는 경우가 많으며, 많은 샘플이 음향적 내용 면에서 매우 유사하여 중복되는 지도 신호 (Supervisory signals)를 제공합니다. 이러한 중복성은 주석 (Annotation) 비용을 증가시킬 뿐만 아니라, 코퍼스 (Corpus)의 다양성을 제한하고 사후 학습의 효과를 감소시킵니다. 이 문제를 해결하기 위해, 우리는 LALMs를 위한 추론 지향적 지도 학습을 구축하기 위한 중복 인지 데이터 구축 파이프라인을 제안합니다. 구체적으로, 우리는 먼저 코퍼스 다양성을 높이기 위해 원시 오디오 데이터셋 전반에 걸쳐 음향 유사도 기반의 중복 제거 (Deduplication)를 수행합니다. 그런 다음 기존의 오디오 캡션 (Audio captions)과 질의응답 (Question-answer) 쌍을 통합된 객관식 형식으로 통합합니다. 이러한 통합된 주석을 바탕으로, 우리는 Qwen3-30B를 활용하여 추론 지향적 지도를 위한 사고 사슬 (Chain-of-thought, CoT) 근거를 생성합니다. 이 파이프라인을 기반으로, 우리는 소리, 음성, 음악을 아우르는 약 191k개의 샘플을 포함하는 추론 지향적 사후 학습 데이터셋인 AudioDER를 구축합니다. 각 샘플은 오디오 클립, 객관식 질문, 4개의 답변 후보, 오디오 캡션, 그리고 CoT 근거로 구성됩니다. 광범위한 실험을 통해 AudioDER를 통한 사후 학습이 MMAU-mini, MMSU, MMAR을 포함한 여러 오디오 추론 벤치마크에서 Qwen2-Audio-7B-Instruct의 성능을 일관되게 향상시킨다는 것을 보여줍니다. 우리는 AudioDER가 오디오 추론 연구와 더 유능한 LALMs 개발을 진전시키는 데 가치 있는 자원으로 활용되기를 바랍니다.

AI 자동 생성 콘텐츠

원문 바로가기

AudioDER: 사후 학습(Post-Training)을 위한 대규모 오디오-언어 모델용 중복 제거 강화 추론 데이터셋

요약

핵심 포인트

댓글