제3자 감사(Third-Person Audit)를 넘어: 사용자 중심 LLM 편향 연구를 위한 상황적 상호작용 감사(SIA)
요약
기존 LLM 편향 연구는 외부 주체로서 모델이 인구통계학적 그룹을 평가하는 '제3자 감사'에 머물러 있었습니다. 본 논문은 실제 사용 환경에서 발생하는 사용자 중심의 상호작용 맥락을 포착하기 위해 '상황적 상호작용 감사(SIA)' 프레임워크를 제안합니다. SIA는 사용자의 암묵적인 신호가 LLM 응답의 품질, 내용, 어조에 미치는 영향을 연구하는 새로운 접근 방식입니다.
핵심 포인트
- 기존 편향 감사는 사용자 부재라는 구조적 사각지대가 있었습니다.
- 편향은 타인 묘사보다 대화 상대방(interlocutor)을 대우하는 방식에서 나타납니다.
- SIA는 사용자의 암묵적 신호가 응답에 미치는 영향을 연구합니다.
- 성별 및 사회경제적 지위 신호를 교차 분석하여 SIA 프레임워크를 입증했습니다.
대규모 언어 모델(LLMs)의 편향에 대한 연구는 주로 제3자 감사를 중심으로 이루어져 왔습니다. 이 방식은 모델이 인구통계학적 그룹을 외부 주체로서 어떻게 표현하거나 평가하는지에 초점을 맞춥니다. 하지만 이러한 패러다임은 감사 과정에서 사용자가 부재하다는 구조적인 사각지대를 간과합니다. 실제 상황에서 LLMs는 개방형의 개인적인 상호작용에 사용되며, 이 과정에서 모델은 사용자에게 암묵적으로 반응하고 그에 맞춰 응답을 조정합니다. 동일한 요청이 누가 묻는지에 따라 다른 응답을 산출할 때, 편향은 모델이 타인을 어떻게 묘사하는지에 있는 것이 아니라 대화 상대방(interlocutor)을 어떻게 대우하는지에서 나타납니다. 이에 우리는 사용자 중심의 프레임워크인 상황적 상호작용 감사(Situated Interaction Auditing, SIA)를 제안합니다. SIA는 사용자 프로필 신호—암묵적인 사회인구통계학적 마커, 글쓰기 스타일, 명시된 정체성—가 LLM 응답의 품질, 내용, 어조에 체계적으로 어떻게 영향을 미치는지 연구하는 틀입니다. 우리는 여러 작업 영역(task domains)에 걸쳐 성별 및 사회경제적 지위 신호를 교차 분석하는 사례 연구를 통해 이 프레임워크를 입증하고, 자연어 처리 분야의 새로운 과제로서 SIA를 위한 연구 의제를 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기