arXiv논문2026. 06. 23. 12:16

차이를 만드는 요소로서의 단어: 대규모 언어 모델(LLMs)이 텍스트 내 인과 구조를 결정하는 방식

요약

본 논문은 LLM이 텍스트 내에서 인과 구조를 학습하는 방식인 '차이 생성 논리(difference-making logic)'를 분석합니다. LLM이 변분 유도를 통해 문맥 내에서 인과적 요소와 비인과적 요소를 식별하는 메커니즘을 규명합니다.

핵심 포인트

LLM이 인과 구조를 학습하는 '차이 생성 논리' 개념 제시
변분 유도(variational induction)를 통한 인과 관계 도출 방식 설명
토큰 임베딩과 셀프 어텐션이 인과 추론에 미치는 역할 분석
LLM의 학습 방식과 실험적 방법론 간의 평행 관계 입증

대규모 언어 모델 (LLMs)은 텍스트를 예측하는 데 있어 인상적일 정도로 성공적이기 때문에, 인과적(causal) 및 정의적 구조를 나타내는 '세계 모델 (world model)'에 접근할 수 있는 것처럼 보입니다. 그러나 현대 인과 추론 (causal inference)의 지배적인 형식주의인 Judea Pearl의 개입주의적 접근 방식 (interventionist approach)과 Neyman-Rubin의 잠재적 결과 프레임워크 (potential outcomes framework)는 LLMs가 어떻게 인과 구조를 학습하는지 밝히는 데 어려움을 겪고 있습니다. 본 논문은 LLMs가 차이 생성 논리 (difference-making logic) — 때때로 변분 유도 (variational induction)라고 불리는 — 를 기반으로 한 특정 귀납적 접근 방식을 채택한다는 주장을 통해 이 수수께끼를 해결합니다. 저는 이 논리의 핵심적인 측면들이 학습 과정 중에 어떻게 실현되는지 입증하며, 이 과정에서 LLMs는 단어 시퀀스 내에서 차이를 만드는 요소 (difference-makers)와 차이를 만들지 않는 요소 (indifference-makers)를 식별하기 위해 광범위한 문맥으로부터 방대한 양의 텍스트 데이터를 필요로 합니다. 나아가, 저는 토큰 임베딩 (token embeddings) 및 셀프 어텐션 (self-attention)과 같은 LLMs의 특정 아키텍처 특징을 분석하여 변분 유도에서의 역할을 결정합니다. LLMs의 차이 생성 논리는 개별 상황을 체계적으로 변화시켜 현상에 미치는 영향을 결정함으로써 인과 관계를 도출하는 실험 방법론 (experimental method)과 근본적으로 평행을 이룹니다.

AI 자동 생성 콘텐츠

원문 바로가기

차이를 만드는 요소로서의 단어: 대규모 언어 모델(LLMs)이 텍스트 내 인과 구조를 결정하는 방식

요약

핵심 포인트

댓글