대규모 언어 모델(LLM)은 얼마나 인간과 유사한가? 레지스터 인지 언어 평가 프레임워크

사실적 정확성(factual correctness)과 작업 수행 능력(task-performance)이 오랫동안 대규모 언어 모델(Large Language Model, LLM) 연구의 초점이 되어 왔지만, 생성된 텍스트가 언어적 수준에서 얼마나 인간과 유사한가라는 근본적인 질문은 충분히 탐구되지 않았습니다. 코퍼스 언어학(corpus-linguistic) 관점에서 언어 생성은 본질적으로 문맥 의존적이며, 서로 다른 의사소통 문맥(communicative contexts)은 언어적 특징의 빈도와 공기 패턴(co-occurrence patterns)의 차이를 발생시킵니다. 이러한 패턴을 따르지 못하는 텍스트는 내용 면에서는 정확할 수 있지만, 인간 독자에게는 여전히 부정적으로 느껴질 수 있습니다. 본 연구에서는 특정 레지스터(register)에 대한 인간 참조 코퍼스(human reference corpus)의 언어적 특징 분포와 그에 대응하는 LLM 생성 코퍼스 간의 이표본 문제(two-sample problem)를 사용하여 인간 유사성을 평가하는 문맥 인지 평가 프레임워크를 제안합니다. 우리는 코퍼스 언어학에서 흔히 적용되는 최대 평균 불일치(Maximum Mean Discrepancy, MMD)와 Biber가 도입한 67가지 어휘-문법적 특징(lexico-grammatical features)을 사용하여 이 프레임워크를 구현합니다. 실험에서는 서로 다른 레지스터를 아우르는 5개의 영어 데이터셋을 통해 7개의 지시어 튜닝(instruction-tuned)된 오픈 소스 모델을 인간 기준점(human baseline)과 비교합니다. 테스트된 모든 설정에서 LLM은 인간 기준점에서 벗어나는 모습을 보였으나, 어떤 모델이 인간의 언어에 가장 가까운지는 레지스터에 따라 달라지며 모델의 크기에 의해 결정되지 않습니다.

Insights

대규모 언어 모델(LLM)은 얼마나 인간과 유사한가? 레지스터 인지 언어 평가 프레임워크

요약

핵심 포인트

댓글

일주일 동안 AI에게 내 앱을 55번 테스트하게 했다. 무엇이 망가졌고, 내가 무엇을 망가뜨렸는가

Viatris 분기 실적 전망: 알아야 할 사항

복리적 코드(Compounding Code)를 위한 신경계로서의 GitHub: 변화의 속도에서 살아남기

KPMG, AI 네이티브 기업 시스템 개발을 위해 OpenAI와 파트너십 체결

Viatris 분기 실적 전망: 알아야 할 사항

복리적 코드(Compounding Code)를 위한 신경계로서의 GitHub: 변화의 속도에서 살아남기

KPMG, AI 네이티브 기업 시스템 개발을 위해 OpenAI와 파트너십 체결