추론 LLM을 통한 장편 TV 드라마에서의 화자 인식(Speaker Recognition) 성능 향상
요약
장편 TV 드라마의 복잡한 맥락에서 화자를 정확히 식별하기 위한 새로운 벤치마크와 모델을 제안합니다. 대규모 추론 모델(LRM)을 활용해 시각, 청각, 언어적 단서를 통합함으로써 기존 방식보다 뛰어난 화자 인식 성능을 입증했습니다.
핵심 포인트
- 900명 이상의 캐릭터를 포함한 DramaSR-532K 벤치마크 공개
- 대규모 추론 모델(LRM) 기반의 DramaSR-LRM 접근 방식 제안
- 멀티모달 도구 사용을 통한 문맥적 증거의 자율적 집계
- 음향 정보가 부족한 짧은 발화에서도 높은 인식 성능 달성
장편 TV 드라마는 포괄적인 비디오 이해(video understanding)에 있어 매우 까다로운 과제를 제시하며, 복잡한 줄거리를 파악하는 것은 종종 각 발화(utterance)를 해당 캐릭터에 정확하게 할당하는 작업인 extbf{화자 인식 (speaker recognition)}에 의존합니다. 본 논문에서는 두 가지 주요 기여를 통해 이 분야를 발전시킵니다. (1) 우리는 900명 이상의 고유 캐릭터에 걸쳐 532K개의 주석이 달린 대사 라인으로 구성된 대규모 벤치마크인 extbf{DramaSR-532K}를 소개합니다. 이는 화자 인식을 위해 청각적, 언어적, 시각적 단서의 통합을 필요로 합니다. (2) 우리는 대규모 추론 모델 (LRM, large reasoning model)을 기반으로 구축된 강력한 접근 방식인 extbf{DramaSR-LRM}을 제안합니다. DramaSR-LRM은 멀티모달 도구 사용 (multimodal tool-use)을 통해 문맥적 증거를 자율적으로 집계하고, 다양한 입력을 합성하여 높은 충실도의 할당을 달성하도록 설계되었습니다. 실험 결과, DramaSR-LRM은 기존 베이스라인(baselines)을 크게 능가하며, 특히 음향 생체 인식 (acoustic biometrics)이 본질적으로 신뢰하기 어려운 짧은 발화에서 뛰어난 성능을 보였습니다. extit{모든 데이터와 코드는 프로젝트 페이지 https://www.github.com/198808xc/DramaSR-LRM 에 공개될 예정입니다.}
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기