본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 05. 25. 22:49

논문 메모: CROQ로 LLM의 문화적·지역적 편향을 측정하기

요약

LLM이 문화적 질문에 답할 때 특정 국가나 지역을 기본값으로 선택하는 편향을 측정하는 CROQ 데이터셋과 연구를 소개합니다. 기존의 정답률 중심 평가에서 벗어나 자유 응답에 나타나는 지역 분포를 분석하여 모델의 암묵적 편향을 규명합니다.

핵심 포인트

  • CROQ는 24개 언어와 3만 개 이상의 질문을 포함한 문화 편향 측정 데이터셋입니다.
  • LLM은 특정 언어의 공용 국가나 일본, 미국 등 특정 지역을 기본값으로 참조하는 경향이 있습니다.
  • 편향은 사전 학습뿐만 아니라 SFT 과정에서 더욱 강화될 수 있습니다.
  • LLM-as-a-judge 방식을 활용해 답변에서 지역명을 추출하는 평가 흐름을 제안합니다.

LLMの文化・地域バイアス

서론

이 글은 다음 논문을 읽고 작성한 기술 메모입니다.

  • 논문 제목: Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs
  • 논문 링크: https://arxiv.org/abs/2604.21751
  • 저자: Joseba Fernandez de Landa, Carla Perez-Almendros, Jose Camacho-Collados
  • 발표 연도: 2026년

상세한 배경 설명, 도해, 실험 결과 정리는 개인 블로그에 모아두었습니다.

👉 완전판은 이쪽에서 확인하세요: https://kasblo.com/ai-paper/croq-llm-cultural-regional-bias/

3줄 요약

  • CROQ는 LLM(Large Language Model, 대규모 언어 모델)이 문화 질문에서 어떤 국가나 지역을 암묵적으로 참조하는지 확인하기 위한 자유 응답형 데이터셋입니다.
  • 논문에서는 입력 언어의 공용 국가로의 편향뿐만 아니라, 일본·미국·인도 등 일부 지역에 대한 외부 참조가 두드러짐을 보여줍니다.
  • 편향은 사전 학습(Pre-training)뿐만 아니라, SFT(Supervised Fine-Tuning, 지도 미세 조정) 후에 더욱 강해질 수 있다는 점이 구현 및 평가상의 포인트입니다.

어떤 논문인가

이 논문은 LLM의 문화적·지역적 편향을,

'정답률'이 아니라 '자유 응답에 나타나는 지역 분포'로서 측정하는 연구입니다.

예를 들어,

"가족 생활을 형성하는 가치관은 무엇인가"

와 같이 지역이 지정되지 않은 질문에 대해,

모델이 일본, 미국, 인도, 중국, 프랑스 등

어느 국가나 지역을 답변에 포함하는지를 집계합니다.

여기서 보고 있는 것은 문화 이해의 정확성이 아닙니다.

LLM이 모호한 문화 질문에 답할 때,

어느 지역을 기본값(Default)으로 선택하기 쉬운가 하는 점입니다.

원 논문의 기여

주요 기여는 다음 세 가지입니다.

기여내용기술적 관점의 포인트
CROQ 구축11개 토픽, 66개 서브 토픽, 24개 언어, 31,680개의 문화 질문 작성지역 미지정 자유 응답에서 분포를 확인
...
CROQデータセット

평가 흐름

평가 흐름은 매우 단순합니다.

評価フロー

for language in languages:
    for question in CROQ[language]:
        answer = target_llm.generate(question)
        ...

포인트는 대상 모델과 지역 추출 모델을 분리했다는 점입니다.

대상 모델에는 문화 질문에 답하게 합니다.

그 답변을 별도의 LLM-as-a-judge에 전달하여,

국가·지역명을 최대 5개까지 추출합니다.

무엇이 새로운가

기존의 문화 평가는,

정답 라벨이 붙은 QA나 선택형 벤치마크가 중심이었습니다.

이에 반해 CROQ는,

'맞았는가'보다,

'모델이 어느 지역을 선택하기 쉬운가'를 봅니다.

평가 방식무엇을 보는가적합한 용도약점
정답 라벨이 붙은 QA문화 지식의 정확성지식의 유무를 측정암묵적인 지역 선택은 보기 어려움
...
이러한 접근 방식은,

다국어 AI 앱의 평가에 사용하기 좋습니다.

번역 품질이 높더라도,

언어마다 암묵적인 지역 전제가 달라지면

사용자 경험(UX)이 변하기 때문입니다.

분석 지표

分析指標

논문에서는

지역 참조 분포를 몇 가지 지표로 살펴보고 있습니다.

지표의미구현 시 관점
Own입력 언어의 공용 국가 참조언어와 국가의 결합이 강한가
...

Normalized Entropy(정규화 엔트로피)는

분포의 균등함을 보는 지표입니다.

지역 집합을

지역

엔트로피는 다음과 같이 쓸 수 있습니다.

지역 수가 많을수록 최댓값도 커지기 때문에,

비교하기 쉽도록

참조가 여러 지역으로 균등하게 퍼지면

1에 가까워집니다.

0에 가까울수록

특정 지역에 집중되어 있을 가능성이 있습니다.

구현 예시: 지역 참조 집계

실제로 CROQ 방식의 평가를 작게 테스트해 본다면,

지역 추출 후의 집계는 다음과 같은 형태가 됩니다.

import logging
import math
from collections import Counter
...

실무에서는,

이 앞 단계에는 「답변에서 지역명을 추출하는 처리」가 필요합니다.

그 부분을 LLM-as-a-judge에 맡길 경우,

추출 프롬프트 (Prompt)의 안정성,

국가명·도시명·문화권명의 정규화 (Normalization),

모호한 지명의 처리가 중요해집니다.

주요 결과

主要結果

논문에서는 많은 모델에서 입력 언어의 공용국에 대한 참조가 강하게 나타남을 보여줍니다.

일본어라면 일본,

영어라면 영어권,

스페인어라면 스페인어권과 같이,

입력 언어와 지역의 결합이 답변 분포에 반영됩니다.

또한, 입력 언어의 공용국이 아닌 외부 참조를 보면, 일본과 미국이 특히 눈에 띄며, 그 뒤를 이어 인도, 중국, 프랑스 등이 이어지는 경향이 보고되었습니다.

다만, 이것이 「그 나라의 문화를 올바르게 이해하고 있다」는 것을 의미하지는 않습니다. 어디까지나 자유 응답에서 참조되기 쉬운 지역이 편향되어 있다는 이야기입니다.

언어에 따른 차이

言語の影響

RQ2에서는 입력 언어에 따라 지역 분포가 변한다는 것이 나타나 있습니다.

고리소스 언어 (High-resource language, 학습 데이터가 비교적 많은 언어)에서는 Diversity나 Normalized Entropy가 비교적 높아지는 경향이 있습니다.

반면, 저리소스 언어 (Low-resource language, 학습 데이터가 비교적 적은 언어)에서는 입력 언어의 공용국에 대한 참조나 미응답이 늘어나, 분포가 좁아지기 쉽다고 논문에서는 설명하고 있습니다.

언어 조건관측된 경향구현 시 주의사항
고리소스 언어참조 지역이 넓어지기 쉬움그럼에도 유명 국가로 쏠릴 가능성은 있음
...

학습 단계에 따른 차이

学習段階

RQ3에서는 Base model과 Instruct model을 비교하고 있습니다.

논문에서는 Base model의 지역 참조는 비교적 넓게 분산되는 반면, SFT나 Instruction tuning (지시를 따르도록 모델을 조정하는 공정) 이후에는 일부 지역으로의 집중이 강해지기 쉽다는 점이 나타나 있습니다.

이는 구현자에게 중요합니다. 문화·지역 편향은 사전 학습 (Pre-training) 데이터뿐만 아니라, 후속 단계의 정렬 (Alignment) 데이터나 모범 답안을 만드는 방식에도 영향을 받을 가능성이 있기 때문입니다.

구현자 관점에서 눈에 띈 점

CROQ형 평가는 다국어 서비스 출시 전 검증에 사용하기 좋습니다. 예를 들어, 동일한 문화 질문을 여러 언어로 던지고 지역 참조의 분포를 비교하면, 「번역은 자연스럽지만, 답변의 지역적 전제가 어긋나 있는」 케이스를 찾아내기 쉬워집니다.

반면, 그대로 자동 평가에 사용하기에는 주의가 필요합니다.

주의점왜 중요한가
추출기의 편향LLM-as-a-judge 자체가 지역명을 놓칠 가능성이 있음
...

흔한 오해

よくある誤解

오해정확한 정보·해석
LLM이 일본 문화를 좋아한다는 의미선호나 의도가 아니라, 답변 분포에서 일본 참조가 눈에 띈다는 의미입니다.
...

개인적인 소감

이 논문은 LLM 평가를 「정답률」만으로 보지 않기 위한 좋은 사례라고 생각했습니다. 문화에 관한 답변에서는 맞고 틀림을 떠나서, 어떤 지역을 암묵적인 전제로 하고 있는지가 사용자 경험 (UX)에 영향을 미칩니다. 특히 다국어 챗봇, 교육 AI, 여행 AI, 지역 맞춤형 추천에서는 언어별 지역 분포를 살펴볼 가치가 있습니다.

요약

CROQ는 LLM의 문화·지역 편향을 자유 응답 중의 지역 참조로서 측정하는 데이터셋입니다. 논문에서는 입력 언어의 공용국으로의 편향, 일본·미국·인도 등으로의 외부 참조 집중, SFT 이후에 편향이 강해질 수 있음이 나타나 있습니다. 구현자로서는 다국어 AI 서비스 평가에 있어 번역 품질뿐만 아니라, 답변이 암묵적으로 전제하는 지역 분포도 살펴봐야 한다고 느꼈습니다.

상세 버전

더 자세한 배경, CROQ의 구성, 수식, 관련 기술, 다음에 읽어야 할 기사 제안은 개인 블로그에 정리해 두었습니다.

👉 완전판은 이쪽으로: https://kasblo.com/ai-paper/croq-llm-cultural-regional-bias/

Discussion

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0