
최상위 LLM들은 중재에 취약하다
요약
SoCRATES는 8가지 갈등 영역에서 LLM의 선제적 중재 능력을 평가하는 도구입니다. 연구 결과, 최상위 모델들도 전문가와 비교했을 때 합의 격차의 약 1/3만을 해결하는 한계를 보였습니다.
핵심 포인트
- SoCRATES 평가 도구는 전문가와 0.82의 높은 일치도를 보임
- 최상위 LLM들도 갈등 중재 능력에는 여전히 한계가 있음
- 모델들이 합의 격차의 약 1/3만을 메울 수 있음을 확인
SoCRATES는 8개의 실제 갈등 영역(conflict domains)에 걸쳐 선제적인 LLM 중재(mediation) 능력을 테스트합니다. 이 평가 도구는 전문가와 0.82의 일치도를 보이지만, 가장 뛰어난 모델들조차 합의 격차(consensus gap)의 약 1/3만을 메울 뿐입니다. https://t.co/FrMriQkrVw
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기