무(無)에서 유(有)를: 언어 모델이 '0'을 발견할 수 있는가?
요약
언어 모델이 학습 데이터 범위를 넘어 수학적 개념인 '0'을 독립적으로 발견할 수 있는지 연구했습니다. GPT-2 규모의 모델은 사전 학습 없이 일반화에 한계가 있으나, 특정 예시 학습과 언어 사전 학습을 통해 수학적 발견 능력이 향상됨을 확인했습니다.
핵심 포인트
- 언어 모델의 분포 외 일반화(OOD) 능력으로서의 수학적 발견 조사
- GPT-2 규모 모델은 언어 사전 학습 없이 수학적 일반화 수행이 어려움
- 수십~수백 개의 예시 학습 시 모델의 수학적 성능 실질적 향상
- 언어 능력이 신경망의 수학적 발견을 보조(Scaffold)하는 역할 수행
인공 신경망 (Artificial Neural Networks) 기반의 AI 시스템들은 인간의 수학적 지식의 경계를 확장하려는 열망을 가지고 개발되고 있습니다. 이러한 시스템들에게 핵심적인 질문은 이들이 학습 데이터(Training Data)를 얼마나 넘어설 수 있는가 하는 점입니다. 수학적 발견은 강력한 형태의 분포 외 일반화 (Out of Distribution Generalization), 즉 진정으로 새롭고 잠재적으로 논리적으로 더 강력한 수학적 구조를 가설로 세울 수 있는 능력을 요구합니다. 인간의 인지 과정에서 언어 능력이 이러한 일반화를 지원한다는 가설이 제기되어 왔습니다. 본 연구에서는 현대 AI 모델들이 어떻게 수학적 지평을 넓힐 수 있는지 조사하기 위한 사례 연구로 간단한 산술 (Arithmetic)을 사용하며, 이 모델들이 "0"이라는 개념을 독립적으로 발견할 수 있는지 평가합니다. 우리는 다음을 보여줍니다: (1) GPT-2 크기의 언어 모델 (Language Models)은 언어 사전 학습 (Language Pretraining) 여부와 관계없이 테스트 시점에 이러한 일반화를 수행할 수 없지만, (2) 수십 또는 수백 개의 0에 대한 예시를 학습한 후에는 모델의 성능이 실질적으로 향상될 수 있습니다. 또한, 언어 사전 학습이 필요한 예시의 수를 약 50% 감소시킨다는 것을 발견하였으며, 이는 언어 능력이 신경망 모델 (Neural Models)의 수학적 발견을 보조(Scaffold)할 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기