패킷 손실 은닉 (Packet Loss Concealment)을 위한 자기 지도 테스트 시간 튜닝 (Self-Supervised

패킷 손실 은닉 (Packet Loss Concealment, PLC)은 수신 측에서 누락된 오디오 패킷을 재구성하며, 일반적으로 배포 시점에 파라미터가 고정된 학습된 모델을 사용합니다. 이는 각 통화나 녹음이 도착한 패킷을 통해 신호 특유의 정보를 노출함에도 불구하고, PLC 모델을 정적인 상태로 취급합니다. 우리는 수신된 패킷만을 사용하여 기존 PLC 모델을 적응시키는 자기 지도 테스트 시간 튜닝 (Self-Supervised Test-Time Tuning, TTT) 프레임워크인 TTT-PLC를 제안합니다. 이 방법은 가용 신호의 일부를 합성적으로 마스킹(masking)하여 감독 신호(supervision)를 생성하고, 모델이 고유의 PLC 목적 함수를 통해 이를 은닉하도록 학습시킨 다음, 적응된 모델을 사용하여 실제 패킷 손실을 재구성합니다. 깨끗한 참조 신호(clean reference signal), 외부 적응 데이터, 또는 구조적 수정이 필요하지 않습니다. 우리는 두 가지 배포 설정에서 TTT-PLC를 연구합니다. 비인과적 (non-causal) 설정에서는 재구성 전에 수신된 파일을 사용할 수 있어 반복적인 자기 지도 적응 패스를 허용하며 파일당 적응 한계치를 제공합니다. 인과적 (causal) 설정에서는 이미 송출된 샘플을 수정하지 않고 오디오를 스트리밍하며, 적응은 완료된 과거 블록에 대해서만 수행되고 업데이트된 파라미터는 미래의 오디오에만 영향을 미칩니다. 우리는 두 가지 공개 PLC 백본인 순환형 전대역 음성 PLC 모델인 FRN과 네트워크 음악을 위한 하이브리드 자기회귀-신경망 (autoregressive-neural) 모델인 PARCnet에 이 프레임워크를 구현합니다. 이러한 설정 전반에 걸쳐, 결과는 사전 학습된 PLC 시스템을 추론 시점에 고정된 것으로 취급할 필요가 없으며, 손실이 발생한 신호에서 여전히 관찰되는 부분들이 해당 신호에 대한 은닉 성능을 향상시키기 위한 효과적인 학습 신호를 제공할 수 있음을 보여줍니다.

Insights

패킷 손실 은닉 (Packet Loss Concealment)을 위한 자기 지도 테스트 시간 튜닝 (Self-Supervised

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때