본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 16:50

SEQUOR: A Multi-Turn Benchmark for Realistic Constraint Following

요약

SEQUOR는 실제 대화에서 추출된 제약 조건으로 구성된 자동 멀티-턴 벤치마크입니다. 이 벤치마크는 모델이 장기간의 복잡한 대화 흐름 속에서도 사용자의 지시를 얼마나 일관성 있게 따르는지 평가합니다. 연구 결과에 따르면, 대화 시간이 길어질수록, 그리고 여러 제약 조건을 동시에 따라야 할 때 지시 준수 정확도가 현저하게 감소하는 경향이 관찰되었습니다.

핵심 포인트

  • 기존 벤치마크는 단일 턴 또는 짧은 멀티-턴 시나리오에 국한되어 장기적인 지시 따르기 능력을 평가하기 어려웠습니다.
  • SEQUOR는 실제 대화에서 추출된 제약 조건으로 구성되어, 현실적이고 까다로운 다중 턴 상호작용을 시뮬레이션합니다.
  • 대화 시간이 길어질수록 모델의 지시 준수 정확도는 일관되게 감소하며, 이는 최대 11% 이상 관찰되었습니다.
  • 여러 제약 조건을 동시에 따라야 할 경우, 지시 준수 능력은 40% 이상 급격히 떨어지는 것으로 나타났습니다.

대화에서 도움이 되는 어시스턴트는 사용자의 지시를 신뢰할 수 있게 따라야 하며, 이는 사용자가 이전 요청을 정교화하거나 수정하거나 반박하는 상황에서도 마찬가지입니다. 그러나 대부분의 지시 따르기 벤치마크는 단일 턴 또는 짧은 멀티 턴 시나리오에 초점을 맞추고 있어, 모델이 장기 지시 따르기 작업을 어떻게 처리하는지에 대한 여지가 남았습니다. 이 격차를 해소하기 위해 우리는 SEQUOR 를 제시합니다. SEQUOR 는 실제 대화에서 추출된 제약 조건으로 구성된 자동 벤치마크로, 장기 멀티 턴 대화에서의 제약 조건 준수 능력을 평가합니다. SEQUOR 는 실제 대화에서 추출된 제약 조건으로 구성된 시뮬레이션 기반 페르소나 구동 상호작용으로 구성됩니다. 우리의 결과는 단일 제약 조건을 따르는 경우에도 대화 시간이 길어질수록 지시 따르기 정확도가 일관되게 감소함을 보여줍니다. 11% 이상의 감소가 관찰되었습니다. 모델이 동시에 여러 제약 조건을 따라야 하는 경우 이 감소는 더 커지며, 정확도를 40% 이상 감소시킵니다. 제약 조건이 대화의 임의 지점에서 추가되거나 교체되는 시나리오에서는 모델의 정확도가 9% 이상 감소합니다. 종합적으로, 우리의 결과는 현재 모델들이 멀티 턴 대화에서 사용자의 지시를 따르기 여전히 어려움을 겪고 있음을 보여주며, 어시스턴트의 지시 따르기 능력을 더 잘 측정할 수 있는 방법을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0