무엇이 아니라 어떻게: LLM 응답 프레이밍에 대한 의사소통 감사
요약
LLM의 주관적 질문에 대한 응답 프레이밍을 평가하기 위한 자동화된 프레임워크 FRANZ와 데이터셋 SQUARE를 소개합니다. 문화적 포지셔닝, 의인화 등 네 가지 차원을 통해 모델의 의사소통 방식을 분석합니다.
핵심 포인트
- LLM 응답의 프레이밍을 분석하는 FRANZ 프레임워크 제안
- 376k개의 주관적 질문 코퍼스인 SQUARE 데이터셋 공개
- 문화적 포지셔닝과 의인화 사이의 상관관계 규명
- 국가별로 상이한 LLM의 응답 특성 및 프레이밍 차이 식별
대규모 언어 모델 (LLMs)은 주관적이고 정보를 찾는 질문에 답하기 위해 점점 더 많이 사용되고 있으며, 여기서 사용자들은 답변이 옳은지 여부뿐만 아니라 답변이 어떻게 전달되는지에도 민감하게 반응합니다. 주관적인 문화적 질의에 대한 기존의 LLM 평가들은 주로 사실적 정확성 (factual correctness)에 초점을 맞추고 있으며, 응답이 어떻게 프레이밍 (framed)되는지는 무시하고 있습니다. 이를 위해, 우리는 문화적 포지셔닝 (cultural positioning), 일반화된 언어 사용 (use of generalizing language), 의인화된 신호 (anthropomorphic cues), 그리고 대화 격률 준수 (adherence to conversational maxims)라는 네 가지 차원에 따라 LLM 응답의 의사소통 감사 (communicative audit)를 수행하기 위한 자동화된 응답 특성화 프레임워크인 FRANZ를 소개합니다. 이 평가를 가능하게 하기 위해, 우리는 57개의 서브레딧 (subreddits)에서 추출하여 7개국 및 19개 질문 카테고리로 매핑된 376k개의 주관적 질문 코퍼스인 SQUARE를 기여합니다. 우리는 세 가지 오픈 웨이트 (open-weight) LLM의 응답을 점수화함으로써 FRANZ의 적용 가능성을 입증합니다. 우리는 LLM들이 각 응답 특성을 사용하는 빈도에서 통계적으로 유의미한 차이를 보임을 관찰합니다. 단일 차원 감사와 달리, FRANZ는 내부자 포지셔닝 (insider positioning)과 의인화 (anthropomorphism)가 양의 상관관계를 가지며, 그 결합 정도가 국가마다 다르다는 것을 밝혀내어 프레이밍의 차이를 식별하기 위한 진단적 렌즈를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기