코드 심볼 시계열 적응(Chord-Symbol Time-Series Adaptation)이 장르 정체성을 얼마나 멀리까지 유지할 수 있는가?
요약
Music Transformer를 활용하여 코드 심볼 시퀀스의 장르별 적응 성능을 연구한 보고서입니다. LoRA, IA3 등 다양한 경량 미세 조정 기법을 통해 11개 음악 장르로의 확장성을 평가하였으며, 코드 심볼만으로는 완전한 장르 정체성을 구현하기에 한계가 있음을 밝힙니다.
핵심 포인트
- LoRA와 IA3가 코드 예측 성능 개선에 효과적임
- 경량 어댑터는 장르별 국소적 화성 모델링을 개선함
- 코드 심볼만으로는 완전한 음악적 장르 정체성 전달이 어려움
- 데이터 크기에 따라 어댑터의 성능 우위가 변동됨
화성(Harmony)은 수학적 음높이 관계(pitch relations), 음향적 협화성(acoustic consonance), 그리고 음악적 관습이 만나는 압축된 심볼릭 계층(symbolic layer)입니다. 본 보고서는 코드 심볼(chord-symbol) 시퀀스를 음악의 완전한 표현이 아니라, 장르별 국소적 화성 모델링(genre-local harmonic modeling)을 위한 해석 가능하고 제어 가능한 시계열(time series)로 다룹니다. 동결된(frozen) 팝-재즈 Music Transformer 체크포인트에서 시작하여, 소규모 적응 인터페이스(adaptation interfaces)가 모델을 11개의 타겟 장르인 블루스(blues), 보사노바(bossa nova), 바흐 코랄(Bach chorales), 컨트리(country), 일렉트로닉(electronic), 포크(folk), 펑크(funk), 가스펠(gospel), 힙합(hip-hop), R&B/soul, 그리고 록(rock)까지 얼마나 확장할 수 있는지 평가합니다. 주요 평가는 11개 장르와 3개의 시드(seed)에 대해 LoRA, IA3, BitFit, prefix tuning, 그리고 전체 미세 조정(full fine-tuning)을 비교하며, 총 165개 셀(cell)의 그리드를 구성합니다. 다섯 가지 방법 모두 홀드아웃(held-out) 코드 예측에서 동결된 베이스 모델보다 개선된 성능을 보였으며, 매크로 이득(macro gains)은 +2.89에서 +3.61 포인트 사이였습니다. LoRA와 IA3가 가장 높은 점수를 기록했으나, Holm 및 Benjamini-Hochberg 보정을 적용한 Wilcoxon 검정 결과 결정적인 승자를 지지하지는 않았습니다. 매칭된 데이터 크기(matched-data-size) 대조군 실험은 이를 더욱 명확히 합니다. 장르를 공통된 코퍼스(corpus) 크기로 하위 샘플링했을 때, IA3는 최상위권을 유지했지만 LoRA의 전체 데이터 우위는 사라지고 최하위로 떨어졌으며, 이는 작은 격차가 부분적으로 데이터에 기인함을 나타냅니다. 제어 토큰(control-token) 베이스라인 또한 강력하며, 잘못된 장르의 어댑터(wrong-genre adapters)가 종종 동결된 베이스 모델보다 나은 성능을 보이는데, 이는 효과의 상당 부분이 특정 어댑터 제품군보다는 재사용 가능한 화성 베이스에 대한 경량 조건화(lightweight conditioning)에서 온다는 것을 시사합니다. 추가적인 진단(rank sweeps, 잘못된 장르 회전, 베이스 체크포인트 절제 연구(ablation), 코드 전용 장르 분류, 생성된 출력 통계, 실제 곡 평가, 그리고 중복 분석)은 제한적인 결론을 뒷받침합니다: 코드 심볼 적응은 장르별 국소적 화성 예측을 안정적으로 개선하지만, 코드 심볼만으로는 완전한 장르 정체성을 운반하지 못합니다. 따라서 본 보고서는 통제된 청취자 또는 음악가 평가가 필요한 인지된 장르 진정성(perceived genre authenticity)이나 완전한 음악적 품질에 대한 주장은 피합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기