본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 01. 16:22

객체 설명에 대한 추론이 작업 기반 대화 시스템에서의 동사대명어 해결을 개선합니다

요약

본 연구는 작업 기반 대화 시스템에서 필수적인 동사대명어 해결(Coreference Resolution)의 정확도를 높이는 새로운 접근 방식을 제안합니다. 기존 모델들이 도메인 특이적 데이터에 과적합되는 한계를 극복하기 위해, 이 연구는 대규모 언어 모델(LLMs)을 활용하여 상세한 객체 메타데이터와 대화 역사를 추론하는 단일 모드 테스트 시간 추론 방법을 제시했습니다. 실험 결과는 LLM이 장면 내의 객체와 대화 문맥을 효과적으로 연결하며, 미지의 시나리오에서도 뛰어난 일반화 성능을 보여주었음을 입증합니다.

핵심 포인트

  • 작업 기반 대화 시스템에서 정확한 동사대명어 해결은 핵심적인 과제이며, 이는 복잡한 시각적 환경에서 특히 어렵습니다.
  • 기존의 감독 학습 모델들은 도메인 일반화 능력이 부족하고 데이터셋에 과적합되는 한계가 있었습니다.
  • 본 연구는 LLMs를 활용하여 객체 메타데이터와 대화 역사를 통합적으로 추론하는 '단일 모드 테스트 시간 추론' 접근법을 제안했습니다.
  • 제안된 방법은 퓨 샷(few-shot) 설정 하에서 미지의 시나리오에 대해 효과적인 일반화 능력을 보여주었으며, 구조화된 메타데이터와 프롬프트 엔지니어링의 중요성을 강조합니다.

작업 기반 대화 시스템은 자연어 상호작용을 통해 사용자에게 특정 목표, 예를 들어 동작 실행 또는 정보 검색 등을 달성하도록 돕습니다. 정확한 동사대명어 (Coreference Resolution) 해결은 필수적이며, 이는 대화 내의 객체 참조를 식별하는 작업을 포함합니다. 이 작업은 복잡한 장면과 다양한 객체 메타데이터로 특징지어지는 시각적으로 기반을 둔 환경에서 점점 더 어려워지고 있습니다. 그러나 작업 기반 대화에서의 동사대명어 해결은 도메인 간 일반화 능력이 부족하고 데이터셋 특이적 인공물에 과적합 (overfit) 되기 쉬운 감독 학습 모델에 크게 의존하는 한계를 겪고 있습니다. 본 연구에서는 대규모 언어 모델 (LLMs) 이 상세한 객체 메타데이터와 대화 역사를 추론하여 동사대명어 해결을 개선할 수 있는 단일 모드 테스트 시간 추론 (unimodal test-time reasoning) 접근법을 제안합니다. SIMMC 2.1 데이터셋에 대한 경험적 결과는 LLM 이 장면 내의 객체와 대화 문맥을 효과적으로 정렬하는 단계별 추론 과정을 생성할 수 있음을 보여줍니다. 광범위한 실험은 모델이 대화와 객체를 정확하게 연결하는 능력을 강조합니다. 또한, 우리는 퓨 샷 (few-shot) 설정 하에서의 테스트 시간 추론이 미지의 시나리오와 새로운 객체에 대해 효과적으로 일반화하며, 도메인 간 평가에서 인코더 기반 감독 학습 방법을 능란함을 보였습니다. 이러한 결과는 작업 지향적 대화 시스템의 견고성과 일반화를 향상시키는 데 구조화된 메타데이터와 신중한 프롬프트 엔지니어링 (prompt engineering) 이 갖는 결정적인 역할을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0