본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 25. 16:47

대규모 언어 모델(LLM)은 얼마나 인간과 유사한가? 레지스터 인지 언어 평가 프레임워크

요약

LLM이 생성한 텍스트의 언어적 유사성을 평가하기 위해 코퍼스 언어학 관점의 새로운 프레임워크를 제안합니다. MMD와 67가지 어휘-문법적 특징을 활용하여 문맥(register)에 따른 인간 유사성을 측정하며, 모델 크기보다 레지스터 적합성이 중요함을 밝힙니다.

핵심 포인트

  • 문맥 의존적 언어 특징을 평가하는 새로운 프레임워크 제안
  • MMD와 67가지 어휘-문법적 특징을 통한 인간 유사성 측정
  • LLM의 언어 유사성은 모델 크기보다 레지스터에 따라 결정됨
  • 사실적 정확성을 넘어 언어적 수준의 인간 유사성 평가 필요성 강조

사실적 정확성(factual correctness)과 작업 수행 능력(task-performance)이 오랫동안 대규모 언어 모델(Large Language Model, LLM) 연구의 초점이 되어 왔지만, 생성된 텍스트가 언어적 수준에서 얼마나 인간과 유사한가라는 근본적인 질문은 충분히 탐구되지 않았습니다. 코퍼스 언어학(corpus-linguistic) 관점에서 언어 생성은 본질적으로 문맥 의존적이며, 서로 다른 의사소통 문맥(communicative contexts)은 언어적 특징의 빈도와 공기 패턴(co-occurrence patterns)의 차이를 발생시킵니다. 이러한 패턴을 따르지 못하는 텍스트는 내용 면에서는 정확할 수 있지만, 인간 독자에게는 여전히 부정적으로 느껴질 수 있습니다. 본 연구에서는 특정 레지스터(register)에 대한 인간 참조 코퍼스(human reference corpus)의 언어적 특징 분포와 그에 대응하는 LLM 생성 코퍼스 간의 이표본 문제(two-sample problem)를 사용하여 인간 유사성을 평가하는 문맥 인지 평가 프레임워크를 제안합니다. 우리는 코퍼스 언어학에서 흔히 적용되는 최대 평균 불일치(Maximum Mean Discrepancy, MMD)와 Biber가 도입한 67가지 어휘-문법적 특징(lexico-grammatical features)을 사용하여 이 프레임워크를 구현합니다. 실험에서는 서로 다른 레지스터를 아우르는 5개의 영어 데이터셋을 통해 7개의 지시어 튜닝(instruction-tuned)된 오픈 소스 모델을 인간 기준점(human baseline)과 비교합니다. 테스트된 모든 설정에서 LLM은 인간 기준점에서 벗어나는 모습을 보였으나, 어떤 모델이 인간의 언어에 가장 가까운지는 레지스터에 따라 달라지며 모델의 크기에 의해 결정되지 않습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0