arXiv논문2026. 06. 12. 11:13

온톨로지 메모리 증강 ASR 교정을 위한 장문 텍스트-음성 혼합 대화

요약

본 논문은 장문 텍스트와 음성이 혼합된 대화 환경에서 발생하는 ASR(자동 음성 인식) 교정의 한계를 극복하기 위한 새로운 프레임워크를 제안합니다. 이 방법은 이전 상호작용 기록을 온톨로지 메모리로 구성하여 개체, 용어, 의미 관계 등을 저장하고 검색 가능한 노드로 활용합니다. 실험 결과, 이 프레임워크는 기존 방식보다 문맥 의존적 ASR 오류에 대해 더 정확하고 증거 기반의 교정을 제공함을 입증했습니다.

핵심 포인트

ASR 교정은 짧은 문맥을 넘어 대화 수준의 문맥적 증거가 필요하다.
온톨로지 메모리는 개체, 용어, 의미 관계 등을 저장하여 검색 가능한 노드를 제공한다.
제안된 프레임워크는 장거리 ASR 교정에 효과적이며 높은 개선율을 보였다.

자동 음성 인식(ASR) 교정은 전통적으로 고립된 발화나 짧은 지역적 문맥에 초점을 맞춰왔습니다. 하지만, 텍스트와 음성이 긴 상호작용 속에서 점점 더 혼합되면서 ASR 교정에는 대화 수준의 문맥적 증거가 필요합니다. 기존의 ASR 교정 방법들은 종종 현재 가설(current hypothesis)에 의존하거나 원시적인 대화 기록을 연결하는 방식을 사용합니다. 이러한 상황에서는 중복성과 노이즈 속에서 희소한 교정 증거를 찾기 어려울 수 있습니다. 이러한 문제들을 해결하기 위해, 우리는 장문 텍스트-음성 혼합 대화를 위한 온톨로지 메모리 증강 ASR 교정 프레임워크를 제안합니다. 이 프레임워크는 이전 상호작용 기록을 동적으로 업데이트 가능한 온톨로지 메모리로 구성하며, 여기서 개체(entities), 용어(terminology), 표면 변이형(surface variants), 잠재적 ASR 혼동(potential ASR confusions), 그리고 의미 관계(semantic relations)가 문맥 기반 교정을 위한 검색 가능한 노드로 저장됩니다. 이 설정을 평가하기 위해, 우리는 장거리 ASR 교정 및 접지된 문맥을 갖춘 MAGIC-RAMC에서 파생된 데이터셋인 RAMC-Corr를 구축했습니다. RAMC-Corr에 대한 실험 결과는 우리의 방법이 10개의 쌍으로 이루어진 백본(backbone) 설정 중 9개에서 직접적인 교정보다 개선됨을 보여주었으며, 문맥 의존적 ASR 오류에 대해 더 선택적이고 증거 기반의 교정을 유도합니다.

AI 자동 생성 콘텐츠

원문 바로가기

온톨로지 메모리 증강 ASR 교정을 위한 장문 텍스트-음성 혼합 대화

요약

핵심 포인트

댓글