arXiv논문2026. 05. 08. 16:46

PairAlign: Sequence Tokenization을 위한 Self-Alignment 프레임워크 및 오디오 토크나이제이션에 대한 응용

요약

PairAlign은 오디오 토크나이제이션을 위한 새로운 자기 정렬(self-alignment) 프레임워크입니다. 기존 방식들이 로컬 할당에 의존하여 시퀀스 일관성이나 길이 제어에 취약했던 문제를 해결하기 위해, PairAlign은 토크나이제이션을 조건부 시퀀스 생성 문제로 접근합니다. 이 프레임워크는 자기회귀 디코더를 사용하여 토큰 정체성, 순서, 길이 등을 학습하며, 두 내용 보존 뷰 간의 상호 일관성을 강하게 유지하여 컴팩트하고 비퇴화적인 오디오 시퀀스를 생성할 수 있습니다.

핵심 포인트

PairAlign은 오디오 토크나이제이션을 조건부 시퀀스 생성 문제로 모델링합니다.
자기회귀 디코더를 사용하여 토큰의 정체성, 순서, 길이 등을 동시에 학습하여 시퀀스 일관성을 높입니다.
두 내용 보존 뷰(content-preserving views) 간의 상호 예측 및 경쟁 시퀀스를 통해 편집 거리 보존과 many-to-one collapse를 방지합니다.
기존 VQ 스타일 토크나이제이션 대비, PairAlign은 더 컴팩트하고 비퇴화적인 시퀀스 학습 능력을 보여줍니다 (예: 3초 음성에서 넓은 어휘 사용 및 강한 크로스 뷰 일관성).
TIMIT 검색과 같은 응용 분야에서 편집 거리 검색을 보존하면서 아카이브 토큰 수를 크게 줄일 수 있습니다.

감각 데이터 (sensory data) 에 대한 많은 작업 -- 비교, 기억, 검색, 추론 -- 은 이산적 기호 구조 (discrete symbolic structures) 위에서 자연스럽게 표현됩니다. 언어에서는 이 인터페이스가 토큰 (token) 으로 주어지지만, 오디오에서는 학습되어야 합니다. 기존 오디오 토크나이저는 양자화 (quantization), 클러스터링, 코덱 재구성 (codec reconstruction) 을 기반으로 하여 토큰을 로컬로 할당하므로, 시퀀스 일관성, 컴팩트함, 길이 제어, 종료, 편집 유사성은 거의 직접 최적화되지 않습니다. 우리는 시퀀스 레벨 자기 정렬 (sequence-level self-alignment) 을 통한 컴팩트 오디오 토크나이제이션을 위한 PairAlign 프레임워크를 소개합니다. PairAlign 는 토크나이제이션을 조건부 시퀀스 생성 (conditional sequence generation) 으로 취급합니다: 인코더는 음성 (speech) 을 연속적 조건 (continuous condition) 으로 매핑하고, 자기회귀 디코더 (autoregressive decoder) 는 BOS 에서 토큰을 생성하여 토큰 정체성, 순서, 길이, EOS 배치 학습합니다. 두 내용 보존 뷰 (content-preserving views) 가 주어지면, 각 뷰의 시퀀스는 다른 뷰의 표현 하에서 가능할 것으로 훈련되며, 관련 없는 예제는 경쟁 시퀀스를 제공합니다. 이는 편집 거리 보존을 위한 확장 가능한 surrogate 를 제공하면서 many-to-one collapse 를 억제합니다. PairAlign 는 VQ 스타일의 토크나이제이션에서 시작하여 EMA-teacher targets, 크로스 페어드 teacher forcing, 프록시 코루프션 (prefix corruption), 가능성 대비 (likelihood contrast), 길이 제어와 함께 정교화합니다. 3 초 음성에서 PairAlign 는 넓은 어휘 사용과 강한 크로스 뷰 일관성을 가진 컴팩트, 비퇴화 시퀀스를 학습합니다. TIMIT 검색에서는 편집 거리 검색을 보존하면서 아카이브 토큰 수를 55% 감소시킵니다. 연속적 스윙 프로브는 밀집 기하학적 토크나이저보다 낮은 로컬 오버랩을 보이지만, 100 ms 시프트 하에서 더 강한 길이 제어와 제한된 편집 궤적을 보입니다. PairAlign 는 시퀀스 기호적 예측 학습자 (sequence-symbolic predictive learner) 입니다: JEPA 스타일의 목표처럼 다른 뷰로부터 추상적 목표를 예측하여 학습된 변수 길이 기호 시퀀스로, 연속적 잠재로 하지 않습니다.

AI 자동 생성 콘텐츠

원문 바로가기

PairAlign: Sequence Tokenization을 위한 Self-Alignment 프레임워크 및 오디오 토크나이제이션에 대한 응용

요약

핵심 포인트

댓글