arXiv논문2026. 06. 19. 10:43

레지스터 격차 (The Register Gap): 나이지리아 공적 담론을 위한 의미 지능 프레임워크

요약

나이지리아 공적 담론 분석을 위해 감정과 의도를 분리하는 9차원 의미 지능 프레임워크(MIF)를 제안합니다. 기존 모델의 맥락 실패 문제를 해결하기 위해 레지스터, 반어법, 서브텍스트 등을 포함한 다차원 평가 스키마를 구축했습니다.

핵심 포인트

표면 감정과 진정한 의도를 분리하는 9차원 MIF 프레임워크 제안
나이지리아 영어 및 피진 등 다양한 레지스터를 포함한 데이터셋 구축
스키마 기반 프롬프팅 시 레지스터 분류 정확도가 33.3%에서 73.3%로 대폭 향상
Gemini 2.5 Flash 모델을 활용한 제로샷 및 스키마 정보 기반 성능 평가

우리는 표면적인 감정 (sentiment)과 진정한 의사소통 의도 (communicative intent)를 분리하여 나이지리아 공적 담론을 분석하는 9차원 주석 및 평가 스키마인 의미 지능 프레임워크 (Meaning Intelligence Framework, MIF)를 소개합니다. NaijaSenti 및 AfriSenti를 포함한 기존의 나이지리아 언어 벤치마크들은 감정 분류 (sentiment classification)를 3원 극성 작업 (positive, negative, neutral)으로 취급합니다. 우리는 나이지리아 담론에 대한 AI 시스템의 주요 실패 모드 (failure mode)가 번역 실패가 아니라 맥락 실패 (context failure)라고 주장합니다. 즉, 동일한 발화라도 화자, 청자, 상황에 따라 정반대의 화용론적 힘 (pragmatic force)을 가질 수 있습니다. MIF는 이러한 통찰을 레지스터 (register), 표면 감정 (surface sentiment), 진정한 의도 (true intent), 반어법 (irony), 암호화된 서브텍스트 (coded subtext), 위험 등급 (risk tier), 주석가 신뢰도 (annotator confidence), 화자 감정 (speaker emotion), 권장 커뮤니케이션 행동 (recommended communications action)이라는 9가지 점수화된 차원을 통해 실행합니다. 우리는 표준 영어 (Standard English), 나이지리아 영어 (Nigerian English), 나이지리아 피진 (Nigerian Pidgin), 그리고 코드 혼용 (code-mixed) 레지스터를 아우르는 30개 항목의 교정 데이터셋 (calibration dataset)을 구축하였으며, 제로샷 (zero-shot) 및 스키마 정보 기반 프롬프팅 (schema-informed prompting) 조건 하에서 최첨단 언어 모델 (frontier language model, Gemini 2.5 Flash)을 평가했습니다. 주요 결과는 레지스터 격차 (Register Gap)입니다. 제로샷 레지스터 분류 정확도는 33.3%였으나, 모델이 문맥 내에서 MIF 스키마를 제공받았을 때 73.3% (+40포인트)로 상승했습니다. 종합 의미 지능 점수 (Meaning Intelligence Score)는 스키마 정보 기반 프롬프팅 하에서 5.4포인트 (73.2에서 78.6으로) 증가했으며, 가장 큰 실질적 이득은 레지스터 식별, 암호화된 서브텍스트 탐지 (+10포인트), 그리고 전략적 행동 권장 (+10.3포인트)에서 나타났습니다. 우리는 재현성을 지원하기 위해 프레임워크 사양, 주석 가이드라인, 30개 항목의 공개 교정 세트를 공개하는 한편, 오염 방지 평가를 위해 비공개 홀드아웃 코퍼스 (holdout corpus)를 유지합니다.

AI 자동 생성 콘텐츠

원문 바로가기

레지스터 격차 (The Register Gap): 나이지리아 공적 담론을 위한 의미 지능 프레임워크

요약

핵심 포인트

댓글