arXiv논문2026. 05. 12. 19:03

Transcoda: 데이터 중심 합성 학습을 통한 종단 간 제로샷 광음악 인식 (Optical Music Recognition)

요약

본 기술 기사는 광음악 인식(OMR) 분야의 주요 난제들을 다루고 있습니다. 현재 OMR은 대규모 주석 데이터셋 부족과 비유일성 인코딩으로 인한 학습 및 디코딩 과정의 불확실성을 겪고 있습니다. 이를 해결하기 위해, 논문에서는 'Transcoda'라는 새로운 시스템을 제안하며, 이는 데이터 중심 합성 학습(data-centric synthetic learning) 접근 방식을 통해 OMR 성능 향상을 목표로 합니다.

핵심 포인트

광음악 인식(OMR)은 악보를 구조화된 텍스트로 변환하는 작업이지만, 대규모 주석 데이터셋 확보가 어렵다는 병목 현상이 존재합니다.
기존 OMR 시스템은 소수의 예시 기반 전이 학습이나 단순한 합성 학습에 의존해왔습니다.
음악 전사 포맷(예: Humdrum kern)의 비유일성 인코딩 문제로 인해, 하나의 시각적 악보가 여러 텍스트 표현으로 매핑되는 '일대다' 문제가 발생하여 높은 불확실성을 야기합니다.
제안된 Transcoda는 데이터 중심 합성 학습을 통해 이러한 OMR 시스템의 한계를 극복하고자 합니다.

광음악 인식(OMR)은 악보를 구조화된 텍스트 표현으로 전사하는 작업이지만, 현재는 대규모의 주석이 달린 실제 스캔 데이터셋 부족으로 병목 현상을 겪고 있습니다. 이로 인해 모델들은 소수의 예시 기반 전이 학습(few-shot transfer)이나 지나치게 단순한 합성 학습 파이프라인에 의존해야 합니다. 또 다른 문제는 비유일성 인코딩입니다. 음악을 전사하는 인기 있는 Humdrum **kern 포맷에서, 여러 가지 다른 텍스트 인코딩이 동일한 시각적 악보로 나타날 수 있습니다. 이러한 일대다(one-to-many) 매핑은 더 어려운 학습 과제를 만들고 디코딩 과정에서 높은 불확실성을 야기합니다. 본 논문에서는 Transcoda를 제안하며, 이는 OMR 시스템입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Transcoda: 데이터 중심 합성 학습을 통한 종단 간 제로샷 광음악 인식 (Optical Music Recognition)

요약

핵심 포인트

댓글