arXiv논문2026. 05. 12. 18:36

페르소나 불일치 기반의 대규모 언어 모델 문화적 정렬 훈련 방식

요약

본 연구는 LLM의 문화적 정렬 문제를 해결하기 위해 DISCA(Disagreement-Informed Steering for Cultural Alignment)라는 새로운 추론 시간 방법을 제안합니다. 기존 방법들이 높은 비용이나 내부 구조 접근을 요구했던 것과 달리, DISCA는 국가별 페르소나 에이전트 패널 간의 '불일치'를 핵심 조향 신호로 활용하여 모델의 문화적 편향성을 보정합니다. 이 방법은 가중치 변경 없이도 다양한 규모와 수의 오픈 가중치 LLM에서 효과적으로 문화적 불일치를 감소시키는 것으로 입증되었습니다.

핵심 포인트

LLM의 문화적 정렬은 기존 방식처럼 국가별 데이터나 화이트박스 접근을 요구하지 않는 새로운 방법론이 필요합니다.
DISCA는 World-Values-Survey 기반 페르소나 에이전트 패널 간의 '불일치'를 활용하여 모델을 조정하는 추론 시간(inference-time) 기법입니다.
이 방법은 가중치를 변경할 필요가 없어 블랙박스 환경에서 적용 가능하며, 다양한 오픈 가중치 LLM에 확장성이 높습니다.
실험 결과, DISCA는 여러 백본 모델에서 문화적 불일치를 유의미하게 감소시키는 것으로 나타났습니다.

대규모 언어 모델(LLM)은 도덕적 판단에 의존하는 결정을 점점 더 많이 매개하고 있지만, 그들의 암묵적인 선호도가 문화적으로 중립적이지 않다는 증거가 증가하고 있습니다. 기존의 문화적 정렬 방법들은 국가별 선호도 데이터와 파인튜닝(fine-tuning) 예산을 요구하거나, 상업용 API에서 노출하지 않는 모델 내부 구조에 대한 화이트박스(white-box) 접근을 가정합니다. 본 연구에서는 이러한 현실적인 블랙박스(black-box), 공개 데이터 전용 환경에 초점을 맞추어, 국가 내 사회인구학적 불일치(disagreement)가 합의(consensus)보다 주요한 조향 신호임을 관찰했습니다. 우리는 DISCA (Disagreement-Informed Steering for Cultural Alignment)를 소개합니다. 이는 각 국가를 World-Values-Survey 기반 페르소나 에이전트 패널로 구현하고, 이들의 불일치를 경계가 설정된(bounded), 손실 회피형 로짓 보정(loss-averse logit correction)으로 변환하는 추론 시간(inference-time) 방법입니다. 20개국과 7개의 오픈 가중치 백본(2B–70B)에 걸쳐, DISCA는 어떠한 가중치도 변경하지 않으면서 MultiTP에서 6개 백본 >=3.8B의 문화적 불일치를 10%~24% 감소시키고, 개방형 시나리오에서는 2%~7% 감소시켰습니다. 우리의 결과는 추론 시간 보정이 글로벌 도덕적 선호도의 긴 꼬리(long tail)를 서비스하기 위한 파인튜닝에 대한 확장 가능한 대안임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

페르소나 불일치 기반의 대규모 언어 모델 문화적 정렬 훈련 방식

요약

핵심 포인트

댓글