LoSoNA: 그룹 대화에서의 지역적 사회 규범 적응을 위한 벤치마크
요약
LLM 에이전트가 다자간 그룹 채팅 내의 숨겨진 지역적 사회 규범을 인식하고 적응하는 능력을 평가하기 위한 새로운 벤치마크 LoSoNA를 제안합니다. 다양한 프롬프팅 조건에서 8개의 주요 모델을 평가한 결과, 모델별로 규범 인식 성능에 큰 차이가 있음을 확인했습니다.
핵심 포인트
- 그룹 채팅 내 지역적 대화 규범 적응 능력을 측정하는 LoSoNA 벤치마크 공개
- 다양한 프롬프팅 조건에 따른 모델의 사회적 역량 평가
- Gemini 1.5 Pro와 Claude 3.5 Sonnet 등 주요 모델의 성능 차이 확인
- LLM의 사회적 지능 및 맥락 추론 능력 평가의 중요성 강조
온라인 그룹 채팅은 명시적으로 언급되는 경우가 드문 지역적 대화 규범 (local conversational norms)을 가진 사회적 공간입니다. LLM 기반 에이전트가 이러한 규범을 인식하고 적응하는 능력과 의지는 대부분 아직 탐구되지 않은 상태로 남아 있습니다. 우리는 다자간 채팅 (multi-party chat)에서의 지역적 사회 규범 적응을 위한 벤치마크인 LoSoNA를 소개합니다. 각 시나리오는 대상 모델에게 비대상 참여자들이 숨겨진 지역적 규범을 보여주는 큐레이션된 그룹 채팅 전사 데이터 (transcript)를 제공하며, 이어서 대상 모델이 해당 규범을 추론했는지 여부를 드러내는 응답을 강제하는 최종 유도 질문 (elicitor turn)이 이어집니다. 우리는 이전 대화를 어떻게 답변해야 하는지에 대한 근거로 취급할지 모델에게 얼마나 명시적으로 지시하느냐에 따라 달라지는 네 가지 프롬프팅 (prompting) 조건 하에서 8개의 프론티어 (frontier) 및 오픈 웨이트 (open-weight) 모델을 평가합니다. 대부분의 모델에게 Naive prompting은 여전히 한계가 있습니다. 명시적인 규범 인식 프롬프팅 (explicit norm-aware prompting)은 모델마다 불균등하게 도움을 주는데, Gemini 3.1 Pro는 84.2%에 도달하고 Claude Fable 5는 81.6%에 도달한 반면, 다른 여러 모델은 미미한 향상 또는 퇴보를 보였습니다. LoSoNA는 모델이 선례로부터 지역적 대화 규범을 추론하고 이를 단일 턴 그룹 채팅 응답에 사용할 수 있는지 테스트함으로써, LLM의 사회적 역량을 평가해야 한다는 최근의 요구에 기여합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기