본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 15. 16:13

SpeakerLLM: 화자 이해 및 검증 추론을 위한 화자 특화 오디오-LLM

요약

SpeakerLLM은 오디오 우선 에이전트 환경에서 필수적인 화자 특화 이해를 통합하기 위해 설계된 새로운 audio-LLM 프레임워크입니다. 이 모델은 누가 말하고 있는지, 목소리가 어떻게 들리는지, 녹음 조건의 영향을 포착하는 것을 목표로 합니다. 기존 시스템들이 제공하지 못했던 언어적 근거와 구조화된 추론 과정을 통합하여, 단일 발화 화자 프로파일링, 녹음 조건 이해, 그리고 증거 기반 검증 추론을 수행할 수 있습니다. SpeakerLLM은 계층적 화자 토크나이저를 사용하여 다양한 세밀도의 화자 정보를 포착하며, 구조화된 추적을 통해 최종 결정의 근거를 명확히 제시합니다.

핵심 포인트

  • SpeakerLLM은 오디오-LLMs에 화자 특화 이해(speaker-specific understanding) 기능을 통합한 프레임워크이다.
  • 단순한 이진 분류를 넘어, 녹음 조건과 프로필 기반의 증거가 조직된 검증 추론을 수행한다.
  • 계층적 화자 토크나이저를 사용하여 발화 수준 및 프레임 수준의 세밀한 화자 특징을 포착한다.
  • 구조화된 추적(structured trace)을 통해 최종 결정과 그 근거를 분리하여 제시함으로써 투명성을 높인다.

물리적 AI (Physical AI), 대화형 로봇, 그리고 스크린 없는 웨어러블 기기에서 오디오 우선 에이전트 (audio-first agents)가 점점 더 보편화됨에 따라, 오디오 거대 언어 모델 (audio-LLMs)은 사용자 인증, 개인화 및 문맥 인식 상호작용을 지원하기 위해 화자 특화 이해 (speaker-specific understanding)를 통합해야 합니다. 이를 위해서는 누가 말하고 있는지, 목소리가 어떻게 들리는지, 그리고 녹음 조건이 화자 단서 (speaker cues)에 어떤 영향을 미치는지 모델링하는 것이 필요합니다. 기존의 화자 검증 (speaker verification) 시스템은 강력한 스칼라 점수 (scalar scores)를 제공하지만 언어적 근거는 거의 제공하지 못하며, 현재의 audio-LLM 및 화자 인식 언어 모델은 이진 라벨 (binary labels)이나 기술적 프로필 (descriptive profiles) 이상의 화자 정보를 조직화하는 능력이 제한적입니다. 우리는 단일 발화 화자 프로파일링 (single-utterance speaker profiling), 녹음 조건 이해 (recording-condition understanding), 발화 쌍 화자 비교 (utterance-pair speaker comparison), 그리고 자연어 인터페이스 내에서 근거가 조직화된 검증 추론 (evidence-organized verification reasoning)을 통합하는 화자 특화 audio-LLM 프레임워크인 SpeakerLLM을 제시합니다. 우리는 프로필 수준의 근거를 최종적인 동일/다름 결정 (same-or-different decision)과 분리하고, 녹음 조건, 프로필 근거, 그리고 결정을 구조화된 추적 (structured trace)으로 조직하는 검증 추론 대상 (verification-reasoning targets)과 결정 구성 정책 (decision-composition policy)을 구축합니다. SpeakerLLM의 핵심은 화자 근거의 다양한 세밀도 (granularities)를 포착하도록 설계된 계층적 화자 토크나이저 (hierarchical speaker tokenizer)를 사용합니다. 발화 수준의 화자 임베딩 (utterance-level speaker embeddings)은 정체성과 프로필 수준의 단서를 요약하는 반면, 프레임 수준의 화자 특징 (frame-level speaker features)은 미세한 음향 기술자 (fine-grained acoustic descriptors)를 보존합니다. 실험 결과, SpeakerLLM-Base는 일반적인 audio-LLM에 비해 화자 프로필 및 녹음 조건 이해도를 향상시켰으며, SpeakerLLM-VR은 강력한 생성된 판결 정확도 (generated-verdict accuracy)를 유지하면서 지도 학습된 검증 추론 스키마 (supervised verification reasoning schema)에 기반한 결정 추적을 생성함을 보여줍니다. 우리는 재현성을 위해 메타데이터가 풍부한 지도 학습 데이터셋과 대상 구축 코드를 공개할 예정입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0