arXiv논문2026. 06. 16. 12:14

이미지를 통해 음성과 단어를 연결하기

요약

텍스트 감독 없이 이미지와 음성 설명만을 사용하여 쓰인 단어와 발화 사이의 매핑을 학습하는 새로운 방법을 제안합니다. 이미지 캡셔닝과 비지도 단어 발견 기술을 결합하여 음성 단어 어휘를 구축하며, 기존 신경망 베이스라인보다 높은 성능과 해석 가능성을 보여줍니다.

핵심 포인트

텍스트 감독 없는 시각적 근거 기반의 음성 단어 매핑 방법론 제시
이미지 캡셔닝과 비지도 단어 발견 기술을 활용한 어휘 구축
음성 단어 검색 및 키워드 탐지 실험에서 기존 모델 대비 우수한 성능 입증
전사 데이터가 부족한 저자원 언어 연구를 위한 가능성 제시

명시적인 텍스트 감독(textual supervision)이 없는 상황에서 어떻게 쓰인 단어와 그에 대응하는 발화 사이의 매핑을 학습할 수 있을까요? 우리는 오직 이미지와 그에 대한 음성 설명만을 사용하여 음성 단어 어휘(vocabulary)를 구축하는 시각적으로 근거가 있는(visually grounded) 방법을 제시합니다. 먼저, 이미지 캡셔닝(image captioning) 시스템을 사용하여 이미지 내의 두드러진 시각적 개념을 나타내는 쓰인 단어의 어휘를 구축합니다. 그런 다음 각 단어에 대해, 이미지 캡션에 해당 단어가 포함된 발화(utterances)를 찾습니다. 그 후, 비지도 단어 발견(unsupervised word discovery) 기술을 사용하여 이러한 발화들을 정렬함으로써 대상 단어의 인스턴스를 찾아냅니다. 그 결과, 텍스트 감독 없이도 쓰인 단어와 연결된 음성 단어 세그먼트(spoken word segments)를 얻을 수 있습니다. 음성 단어 검색(spoken word retrieval) 및 키워드 탐지(keyword spotting) 실험에서, 제안된 접근 방식은 강력한 신경망 베이스라인(neural baseline)보다 뛰어난 성능을 보이면서도 더 높은 해석 가능성(interpretable)을 제공합니다. 이러한 결과는 영어에서의 접근 가능성을 입증하며, 전사 데이터(transcripts)가 없는 저자원 언어(low-resource languages)에 대한 향후 연구를 촉진합니다.

AI 자동 생성 콘텐츠

원문 바로가기

이미지를 통해 음성과 단어를 연결하기

요약

핵심 포인트

댓글