거대 언어 모델(LLMs)에서 지속적으로 나타나는 인간과 유사한 추론의 출현 추적
요약
본 연구는 25개의 LLM이 4개 언어에서 조건부 추론을 수행할 때 인간과 얼마나 유사한지를 인구 통계 매칭 실험을 통해 분석했습니다. 실험 결과, LLM은 논리적 진리표를 따르는 의미론적 연산 능력은 갖추었으나, 인간 특유의 화용론적 풍부함을 포착하는 데는 한계를 보였습니다. 특히 모델의 정확도는 오픈 소스 여부나 아키텍처 유형에 따라 결정되지 않는다는 점이 확인되었습니다.
핵심 포인트
- LLM은 논리적 진리표를 따르는 정확한 의미론적 연산자 역할을 수행함
- 인간과 달리 LLM은 문맥에 따른 화용론적 추론(pragmatic inferences)을 충분히 반영하지 못함
- 모델의 추론 성능은 오픈 소스/폐쇄형 여부나 아키텍처 유형에 의해 예측되지 않음
- LLM의 행동은 규칙 기반 처리와 화용론적 무시 사이에서 가변적으로 나타남
인간은 문자 그대로의 의미를 손쉽게 넘어섭니다. 예를 들어, "잔디를 깎으면 50달러를 주겠습니다"라는 문장은 일반적으로 화자가 잔디를 깎았을 때만 돈을 지불하겠다는 함의를 담고 있는 것으로 이해되는 반면, "배가 고프다면 오븐에 피자가 있습니다"라는 문장은 듣는 이의 허기 상태와 상관없이 피자를 이용할 수 있음을 의미합니다. 거대 언어 모델(Large Language Models, LLMs)은 많은 작업에서 인간과 유사한 성능을 보여주지만, 이들이 인간처럼 추론하는지는 여전히 불분명합니다. 이를 해결하기 위해, 우리는 25개의 LLM이 4개 언어에 걸쳐 조건부 추론(conditional inferences)을 어떻게 계산하는지를 각 언어당 동일한 수의 인간과 비교하여 평가하는 인구 통계 매칭 실험(population-matching experiment)을 수행했습니다. 우리는 인간이 언어 전반에 걸쳐 화용론적 추론(pragmatic inferences)을 통해 논리적 추론을 풍부하게 한다는 것을 발견했습니다. 모델의 행동은 더 가변적입니다. 일부 LLM은 조건문의 진리표(truth-table)를 완벽하게 따르지만 화용론적 추론은 무시하는 반면, 다른 모델들은 진리표에서 벗어나 모든 상황에서 단일한 해석만을 고수하며, 이는 정확한 규칙 기반 처리(rule-based processing)를 반영할 뿐 인간과 유사한 추론을 반영하는 것은 아닙니다. 전반적으로 LLM은 정확한 의미론적 연산자(semantic operators)이지만, 인간 추론의 특징인 화용론적 풍부함(pragmatic enrichments)을 포착하는 데는 실패합니다. 결정적으로, LLM의 정확도는 오픈 소스 대 폐쇄형 여부, 학습 방향, 또는 아키텍처(architecture) 유형에 의해 예측되거나 향상되지 않으며, 이는 화용론적 추론이 인공 시스템의 인지 도구 모음에서 여전히 나타나고 있는 능력임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기