arXiv논문2026. 06. 17. 11:14

LLM은 문화적 맥락을 추론하지만, 응답 시 이를 적용하는 데는 실패한다

요약

LLM이 문화적 맥락을 추론할 수는 있지만, 실제 응답 생성 시 이를 적용하는 데는 한계가 있음을 보여주는 연구입니다. 새로운 데이터셋 CAPRI를 통해 모델의 문화적 적응 능력을 평가하고, 문화적 단서가 축적됨에 따라 모델의 편향성이 어떻게 나타나는지 분석합니다.

핵심 포인트

LLM은 문화적 배경을 추론하지만 명시적 프롬프트 없이는 관습 적용에 실패함
새로운 대화 데이터셋 CAPRI를 통해 문화적 응답 추론 능력 평가
시간 및 수량 표현 등 언어 접지 차원에서의 문화적 적응력 조사
모델의 사전 확률이 특정 국가의 문화적 편향을 보일 수 있음을 발견

최근 연구에 따르면 LLM은 지배적인 문화, 특히 서구 문화를 과잉 대표하는 반면 다른 문화들은 소외시키는 경향이 있습니다. 우리는 사용자의 인지된 문화적 배경에 기반한 현지 측정 단위를 사용하는지 평가함으로써, 이것이 모델의 문화적으로 적응된 응답 생성 능력에 영향을 미치는지 조사합니다. 우리는 다양한 수준의 문화적 단서(cultural cues)를 포함하는 대화 데이터셋인 CAPRI (Cultural and Pragmatic Response Inference)를 소개합니다. 최첨단 LLM을 이용한 실험 결과, 모델들이 문화적 배경을 추론하고 관련 관습을 회상할 수는 있지만, 작업을 순차적으로 수행하도록 명시적으로 프롬프트(prompt)를 주지 않는 한, 관련 문화적 관습에 맞춰 답변을 조정하기 위해 해당 정보를 활용하는 데는 자주 실패한다는 것을 보여줍니다. 우리는 더 나아가 문화의 영향을 받는 두 가지 주관적인 언어 접지(language grounding) 차원인 시간 및 수량 표현의 해석에 대한 적응력을 평가합니다. 우리는 문화적 단서가 축적됨에 따라 모델이 답변을 점점 더 적응시킨다는 것을 발견했지만, 모델의 사전 확률(priors)은 문화적으로 중립적이지 않으며 때로는 모델의 원산지(country of origin)와 일치하기도 합니다. 전반적으로 CAPRI는 문화적 지식과 문화적으로 적응 가능한 언어 생성 사이의 간극을 좁히는 것을 목표로 하는 향후 연구를 위한 자원을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM은 문화적 맥락을 추론하지만, 응답 시 이를 적용하는 데는 실패한다

요약

핵심 포인트

댓글