회의 중 발화 대상(Addressee), 발화 전환(Turn-change), 차기 발화자 예측(Next Speaker Prediction)에
요약
LLM을 활용하여 다자간 대화에서의 발화 대상 탐지, 발화 전환, 차기 발화자 예측 성능을 분석한 연구입니다. 실험 결과, LLM은 차기 발화자 예측에서 사람과 지도 학습 모델보다 뛰어난 성능을 보였으나, 멀티모달 LLM은 여전히 시각·오디오 신호 활용 측면에서 사람의 성능에는 미치지 못했습니다.
핵심 포인트
- LLM이 차기 발화자 예측에서 지도 학습 모델 및 사람보다 우수한 성능을 보임
- 멀티모달 LLM은 발화 대상 및 전환 예측에서 텍스트 기반 LLM보다 우수함
- 대화 문맥(Conversational Context)이 차기 발화자 예측에 핵심적인 역할 수행
- LLM과 사람의 예측 패턴이 유사하며, 빈번한 발화 전환 구간에서 공통적으로 어려움을 겪음
우리는 대규모 언어 모델(LLMs)을 사용하여 멀티모달 다자간 대화(multimodal multi-party conversations)에서의 발화 순서 교대(turn-taking)를 조사합니다. 우리는 세 가지 작업, 즉 발화 대상 탐지(addressee detection), 발화 전환 예측(turn-change prediction), 그리고 차기 발화자 예측(next speaker prediction)을 위한 평가 프레임워크를 구축합니다. 우리는 이러한 작업들을 위해 학습된 지도 학습 모델(supervised models), 텍스트 기반 LLM, 멀티모달 LLM(MM-LLMs), 그리고 사람을 비교합니다. AMI 코퍼스(corpus)를 이용한 실험 결과, LLM은 대상 도메인에 대해 학습되지 않았고 오디오나 시각 정보에 접근할 수 없음에도 불구하고 차기 발화자 예측에서 지도 학습 모델과 사람보다 뛰어난 성능을 보였습니다. MM-LLM은 발화 대상 탐지와 발화 전환 예측에서 텍스트 기반 LLM보다 더 나은 성능을 보였으나, 여전히 사람의 성능에는 미치지 못했으며, 이는 가공되지 않은 오디오-시각 신호(raw audio-visual signals)를 활용하는 데 어려움이 있음을 나타냅니다. 어블레이션 분석(Ablation analyses)을 통해 대화 문맥(conversational context)이 특히 차기 발화자 예측에 있어 매우 중요하다는 것을 확인했습니다. 우리는 사람과 LLM의 예측 패턴이 유사하며, 발화 전환이 빈번하게 발생하는 구간은 양쪽 모두에게 어려웠음을 관찰했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기