arXiv논문2026. 06. 25. 11:18

SFL-MTSC: 강건한 다중 의도 음성 언어 이해를 위한 의미론적 프레임 수준 다중 작업 자기 일관성 활용

요약

LLM 기반 음성 언어 이해(SLU)에서 발생하는 다중 의도 예측의 불일치 문제를 해결하기 위한 SFL-MTSC 프레임워크를 제안합니다. 의미론적 프레임 수준에서 의도별 분해와 클러스터링을 통해 예측의 일관성을 높이는 구조적 집계 방식을 사용합니다.

핵심 포인트

다중 의도 시나리오에서의 의도-슬롯 구조 불일치 문제 해결
의미론적 프레임 수준의 구조적 집계 프레임워크 SFL-MTSC 제안
도메인-의도 그룹화 및 슬롯 수준 클러스터링 적용
MAC-SLU 벤치마크 제로샷 실험을 통해 슬롯 F1 및 전체 정확도 향상 입증

대규모 언어 모델 (LLMs)을 활용한 프롬프트 기반 음성 언어 이해 (SLU)는 디코딩의 확률성(stochasticity)으로 인해, 특히 다중 의도 (multi-intent) 시나리오에서 의도-슬롯 (intent--slot) 구조가 일관되지 않은 문제를 자주 겪습니다. 이를 해결하기 위해, 우리는 의미론적 프레임 수준에서 작동하는 새로운 구조적 집계 프레임워크인 SFL-MTSC (Semantic Frame-Level Multi-Task Self-Consistency)를 제안합니다. SFL-MTSC는 출력 수준의 다수결 투표 (majority voting) 대신, 예측을 의도별 프레임으로 분해하고, 도메인-의도 그룹화 (domain--intent grouping) 및 슬롯 수준 클러스터링 (slot-level clustering)을 적용하며, 경로 지원 점수 (path support scoring)를 사용하여 클러스터의 신뢰성을 평가합니다. 신뢰할 수 있는 프레임은 유지되고 재통합되어 최종 예측을 형성합니다. MAC-SLU 벤치마크 데이터셋에 대한 제로샷 (Zero-shot) 실험 결과, 의도 정확도는 대부분의 설정에서 대체로 안정적으로 유지되는 반면, 슬롯 F1 점수와 전체 정확도는 단일 경로 추론 (single-path inference)에 비해 향상됨을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SFL-MTSC: 강건한 다중 의도 음성 언어 이해를 위한 의미론적 프레임 수준 다중 작업 자기 일관성 활용

요약

핵심 포인트

댓글