SEQUOR: A Multi-Turn Benchmark for Realistic Constraint Following

대화에서 도움이 되는 어시스턴트는 사용자의 지시를 신뢰할 수 있게 따라야 하며, 이는 사용자가 이전 요청을 정교화하거나 수정하거나 반박하는 상황에서도 마찬가지입니다. 그러나 대부분의 지시 따르기 벤치마크는 단일 턴 또는 짧은 멀티 턴 시나리오에 초점을 맞추고 있어, 모델이 장기 지시 따르기 작업을 어떻게 처리하는지에 대한 여지가 남았습니다. 이 격차를 해소하기 위해 우리는 SEQUOR 를 제시합니다. SEQUOR 는 실제 대화에서 추출된 제약 조건으로 구성된 자동 벤치마크로, 장기 멀티 턴 대화에서의 제약 조건 준수 능력을 평가합니다. SEQUOR 는 실제 대화에서 추출된 제약 조건으로 구성된 시뮬레이션 기반 페르소나 구동 상호작용으로 구성됩니다. 우리의 결과는 단일 제약 조건을 따르는 경우에도 대화 시간이 길어질수록 지시 따르기 정확도가 일관되게 감소함을 보여줍니다. 11% 이상의 감소가 관찰되었습니다. 모델이 동시에 여러 제약 조건을 따라야 하는 경우 이 감소는 더 커지며, 정확도를 40% 이상 감소시킵니다. 제약 조건이 대화의 임의 지점에서 추가되거나 교체되는 시나리오에서는 모델의 정확도가 9% 이상 감소합니다. 종합적으로, 우리의 결과는 현재 모델들이 멀티 턴 대화에서 사용자의 지시를 따르기 여전히 어려움을 겪고 있음을 보여주며, 어시스턴트의 지시 따르기 능력을 더 잘 측정할 수 있는 방법을 제공합니다.

Insights

SEQUOR: A Multi-Turn Benchmark for Realistic Constraint Following

요약

핵심 포인트

댓글

LLM 제공업체를 변경한 후에만 발생했던 버그

Nvidia의 Blackwell이 기밀 AI (Confidential AI)의 계산 방식을 바꾸는 이유

Amazon S3 Files: 작동 방식, 성능 경계 및 JuiceFS와의 비교

2026년 AI 보안의 현황: 모든 AI 네이티브 기업에 구조화된 보안 감사 (Security Audit)가 필요한 이유

LLM 제공업체를 변경한 후에만 발생했던 버그

Nvidia의 Blackwell이 기밀 AI (Confidential AI)의 계산 방식을 바꾸는 이유

Amazon S3 Files: 작동 방식, 성능 경계 및 JuiceFS와의 비교

2026년 AI 보안의 현황: 모든 AI 네이티브 기업에 구조화된 보안 감사 (Security Audit)가 필요한 이유