SPLIT: 영어와 우크라이나어 LLM 응답에서의 교차 언어적 공감 및 문화적 접지 (Cultural Grounding)
요약
LLM의 위기 상황 대응 능력 중 교차 언어적 공감과 문화적 접지를 평가하기 위한 새로운 벤치마크 SPLIT을 제안합니다. 영어와 우크라이나어를 대상으로 Gemini, LLaMA, DeepSeek 모델의 성능을 비교 분석했습니다.
핵심 포인트
- 5가지 정서적 범주를 포함한 500개 프롬프트 벤치마크 SPLIT 소개
- DeepSeek-V3가 우크라이나어 전환 시에도 비교적 안정적인 성능 유지
- Gemini와 LLaMA는 우크라이나어 사용 시 성능 저하 현상 발생
- 단순 언어 생성과 문화적 정서 지원 사이의 간극 확인
대규모 언어 모델 (Large Language Models, LLMs)은 정서적 지원 맥락과 위기 관련 상황에서 점점 더 많이 배치되고 있습니다. 그럼에도 불구하고, 이러한 상황에서의 교차 언어적 (cross-lingual) 능력은 여전히 충분히 탐구되지 않은 상태입니다. 기존의 벤치마크들은 다국어 성능을 강조하지만, 저자원 및 중자원 언어 (low-to-mid-resource languages)에서의 위기 관련 공감 및 문화적 접지 (cultural grounding)를 조사하는 경우는 드뭅니다. 우리는 스트레스 (Stress), 공황 (Panic), 외로움 (Loneliness), 내부 실향 (Internal Displacement), 긴장 (Tension)의 다섯 가지 범주에 걸쳐 정서적으로 접지된 응답을 생성하는 LLM의 일관성을 평가하기 위해 설계된 500개 프롬프트 벤치마크인 SPLIT을 소개합니다. 우리는 기술적으로 다양한 세 가지 LLM을 공감 정확도 (Empathetic Accuracy), 언어적 자연스러움 (Linguistic Naturalness), 그리고 맥락 및 문화적 접지 (Contextual & Cultural Grounding)라는 세 가지 차원에서 평가합니다. 이 프레임워크는 영어와 우크라이나어 모두에서 LLM 응답의 품질을 평가 및 비교하는 것을 목표로 하며, LLM-as-a-jury 패러다임의 신뢰성을 탐구하는 것을 목표로 합니다. 우리의 연구 결과에 따르면 Gemini-2.5-Flash와 LLaMA-3.3-70B-Instruct는 우크라이나어로 전환될 때 성능이 저하되는 반면, DeepSeek-V3는 본 벤치마크 내에서 비교적 안정적인 상태를 유지합니다. 또한 우리는 인간 평가자와 AI 평가자가 공감과 자연스러움에 대해서는 일치도가 낮지만, 문화적 접지에 대해서는 의견이 갈린다는 것을 발견했습니다. 우리는 더 나아가 우크라이나어 텍스트를 생성하는 것이 우크라이나어 정서적 지원을 제공하는 것과 동일하지 않다고 주장합니다. 우리의 연구 결과는 향후 더 문화적으로 맞춤화된 벤치마크 설계 개발을 도울 수 있으며, 인간 중심 평가에 대한 더 강력한 강조를 장려할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기