본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 02. 10:14

분포 외 탐지(OOD Detection)를 위한 연속 정규화 흐름(Continuous Normalizing Flow)의 국소 진단

요약

CNF를 활용하여 고차원 데이터의 OOD 탐지 문제를 해결하기 위한 LSF 프레임워크를 제안합니다. 생성 모델의 가능도 역설 문제를 분석하고, 속도장을 기반으로 한 기하학적 진단 신호를 통해 음성 합성 모델의 발음 오류를 효과적으로 탐지합니다.

핵심 포인트

  • LSF 프레임워크를 통한 밀도 추정 및 성분 격리
  • 생성 모델의 가능도 역설(likelihood paradox) 현상 규명
  • 속도장 기반의 기하학적 진단 신호 제안
  • 제로샷 음소 수준 발음 오류 탐지 성능 입증

우리는 고차원 데이터 공간의 부분 공간(subspace)에 임베딩된 대상 관측치에 대한 분포 외 (Out-of-Distribution, OOD) 탐지 문제를 다룹니다. 연속 정규화 흐름 (Continuous Normalizing Flows, CNFs)을 사용하여, 표현(representation) 내의 관련 성분을 격리하여 밀도를 추정하고 나머지 성분을 문맥(context)으로 사용하는 라그랑주 하위 흐름 (Lagrangian Sub-flow, LSF) 프레임워크를 제안합니다. 음성 합성 모델을 통한 실험을 통해, 우리는 CNFs가 다른 딥 생성 모델 (Deep Generative Models, DGMs)과 마찬가지로 OOD 샘플에 잘못된 높은 가능도(likelihood)를 할당하는 "가능도 역설 (likelihood paradox)"에 취약함을 보여줍니다. 이는 고차원적 의미론적 일관성 (semantic coherence)보다 저차원적 구조적 세부 사항을 우선시하는 DGMs의 귀납적 편향 (inductive bias)에 기인합니다. 이 현상을 완화하기 위해, 우리는 하위 흐름 궤적 (sub-flow trajectory) 상의 속도장 (velocity field)을 기반으로 한 여러 기하학적 진단 신호 (geometric diagnostic signals)를 제안합니다. 이러한 신호들을 바탕으로, 우리는 제로샷 (zero-shot) 음소 수준 발음 오류 탐지 (phoneme-level mispronunciation detection)라는 까다로운 과제를 위한 지표들을 설계합니다. 마지막으로, 우리는 실제 발음 오류 탐지 벤치마크에서 이러한 지표들이 가능도 기반 방법들보다 우수함을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0