패킷 손실 은닉 (Packet Loss Concealment)을 위한 자기 지도 테스트 시간 튜닝 (Self-Supervised
요약
패킷 손실 은닉(PLC) 성능을 높이기 위해 수신된 신호만을 활용하여 모델을 실시간 적응시키는 TTT-PLC 프레임워크를 제안합니다. 별도의 참조 신호 없이도 자기 지도 학습을 통해 각 통화의 특성에 맞춰 모델을 튜닝할 수 있습니다.
핵심 포인트
- 자기 지도 테스트 시간 튜닝(TTT)을 통한 PLC 모델의 동적 적응
- 추가적인 참조 신호나 외부 데이터 없이 수신 패킷만으로 학습 가능
- 비인과적 및 인과적(스트리밍) 설정 모두에서 효과적인 성능 입증
- FRN 및 PARCnet 백본 모델에 적용하여 은닉 성능 향상 확인
패킷 손실 은닉 (Packet Loss Concealment, PLC)은 수신 측에서 누락된 오디오 패킷을 재구성하며, 일반적으로 배포 시점에 파라미터가 고정된 학습된 모델을 사용합니다. 이는 각 통화나 녹음이 도착한 패킷을 통해 신호 특유의 정보를 노출함에도 불구하고, PLC 모델을 정적인 상태로 취급합니다. 우리는 수신된 패킷만을 사용하여 기존 PLC 모델을 적응시키는 자기 지도 테스트 시간 튜닝 (Self-Supervised Test-Time Tuning, TTT) 프레임워크인 TTT-PLC를 제안합니다. 이 방법은 가용 신호의 일부를 합성적으로 마스킹(masking)하여 감독 신호(supervision)를 생성하고, 모델이 고유의 PLC 목적 함수를 통해 이를 은닉하도록 학습시킨 다음, 적응된 모델을 사용하여 실제 패킷 손실을 재구성합니다. 깨끗한 참조 신호(clean reference signal), 외부 적응 데이터, 또는 구조적 수정이 필요하지 않습니다. 우리는 두 가지 배포 설정에서 TTT-PLC를 연구합니다. 비인과적 (non-causal) 설정에서는 재구성 전에 수신된 파일을 사용할 수 있어 반복적인 자기 지도 적응 패스를 허용하며 파일당 적응 한계치를 제공합니다. 인과적 (causal) 설정에서는 이미 송출된 샘플을 수정하지 않고 오디오를 스트리밍하며, 적응은 완료된 과거 블록에 대해서만 수행되고 업데이트된 파라미터는 미래의 오디오에만 영향을 미칩니다. 우리는 두 가지 공개 PLC 백본인 순환형 전대역 음성 PLC 모델인 FRN과 네트워크 음악을 위한 하이브리드 자기회귀-신경망 (autoregressive-neural) 모델인 PARCnet에 이 프레임워크를 구현합니다. 이러한 설정 전반에 걸쳐, 결과는 사전 학습된 PLC 시스템을 추론 시점에 고정된 것으로 취급할 필요가 없으며, 손실이 발생한 신호에서 여전히 관찰되는 부분들이 해당 신호에 대한 은닉 성능을 향상시키기 위한 효과적인 학습 신호를 제공할 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기