본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 17:10

MultiLinguahah : A New Unsupervised Multilingual Acoustic Laughter Segmentation

요약

웃음은 인간 소통의 핵심 요소이지만, 오디오에서 이를 정확하게 탐지하고 세분화하는 것은 어려운 과제입니다. 기존 기계 학습 방법들은 수동 주석에 의존하며 영어 중심의 데이터셋이 많다는 한계를 가집니다. 본 논문에서는 웃음 세분화 문제를 에너지 기반 시퀀스의 이상 탐지로 재정의한 무감독 다국어 방법을 제안합니다. 이 방법은 BYOL-A 인코더로 학습된 오디오 표현에 Isolation Forest를 적용하여, 비영어권 환경에서도 우수한 성능을 입증했습니다.

핵심 포인트

  • 웃음 탐지 및 세분화는 사회적 상호작용의 핵심이지만 기술적으로 어려운 과제이다.
  • 기존 방법들은 수동 주석과 영어 중심 데이터셋에 의존하는 한계가 있다.
  • 본 연구는 웃음 세분화 문제를 '에너지 기반 시퀀스의 이상 탐지(Anomaly Detection)'로 재정의하여 무감독 다국어 접근 방식을 제시한다.
  • BYOL-A 인코더와 Isolation Forest를 결합한 방법은 비영어권 환경에서 기존 최신 알고리즘보다 우수한 성능을 보인다.

웃음은 문화와 언어에 걸쳐 보편적인 사회적 비음성화 (non-vocalization) 로, 인간 소통의 핵심 요소입니다. 이는 사회적 유대감 형성 및 의사소통 신호 전달에 필수적입니다. 그러나 오디오에서 웃음을 탐지하는 것은 어려운 과제이며, 이를 세분화 (segmenting) 하는 것은 더욱 어렵습니다. 현재 기계 학습 (Machine Learning) 방법들은 대부분 비용이 많이 드는 수동 주석 (manual annotation) 을 기반으로 하며, 데이터셋은 주로 영어 문맥에 기반하고 있습니다. 이에 따라 우리는 에너지 기반 세분화된 오디오 시퀀스의 이상 탐지 (anomaly detection) 로 웃음 세분화 과제를 설정하는 무감독 다국어 방법을 제안합니다. 우리 방법은 BYOL-A 인코더에서 학습된 오디오 표현에 Isolation Forest 를 적용합니다. 우리는 AudioSet 의 스탠드업 코미디, sitcoms(시트콤), 일반적인 짧은 오디오 등 4 개의 데이터셋에서 우리 방법과 최신 웃음 탐지 알고리즘들을 비교했습니다. 우리의 결과는 최신 방법들이 다국어 문맥을 최적화하지 않았으며, 우리 방법은 비영어권 환경에서 더 우수한 성능을 보인다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0