거대 언어 모델(LLMs)에서 지속적으로 나타나는 인간과 유사한 추론의 출현 추적

인간은 문자 그대로의 의미를 손쉽게 넘어섭니다. 예를 들어, "잔디를 깎으면 50달러를 주겠습니다"라는 문장은 일반적으로 화자가 잔디를 깎았을 때만 돈을 지불하겠다는 함의를 담고 있는 것으로 이해되는 반면, "배가 고프다면 오븐에 피자가 있습니다"라는 문장은 듣는 이의 허기 상태와 상관없이 피자를 이용할 수 있음을 의미합니다. 거대 언어 모델(Large Language Models, LLMs)은 많은 작업에서 인간과 유사한 성능을 보여주지만, 이들이 인간처럼 추론하는지는 여전히 불분명합니다. 이를 해결하기 위해, 우리는 25개의 LLM이 4개 언어에 걸쳐 조건부 추론(conditional inferences)을 어떻게 계산하는지를 각 언어당 동일한 수의 인간과 비교하여 평가하는 인구 통계 매칭 실험(population-matching experiment)을 수행했습니다. 우리는 인간이 언어 전반에 걸쳐 화용론적 추론(pragmatic inferences)을 통해 논리적 추론을 풍부하게 한다는 것을 발견했습니다. 모델의 행동은 더 가변적입니다. 일부 LLM은 조건문의 진리표(truth-table)를 완벽하게 따르지만 화용론적 추론은 무시하는 반면, 다른 모델들은 진리표에서 벗어나 모든 상황에서 단일한 해석만을 고수하며, 이는 정확한 규칙 기반 처리(rule-based processing)를 반영할 뿐 인간과 유사한 추론을 반영하는 것은 아닙니다. 전반적으로 LLM은 정확한 의미론적 연산자(semantic operators)이지만, 인간 추론의 특징인 화용론적 풍부함(pragmatic enrichments)을 포착하는 데는 실패합니다. 결정적으로, LLM의 정확도는 오픈 소스 대 폐쇄형 여부, 학습 방향, 또는 아키텍처(architecture) 유형에 의해 예측되거나 향상되지 않으며, 이는 화용론적 추론이 인공 시스템의 인지 도구 모음에서 여전히 나타나고 있는 능력임을 시사합니다.

Insights

거대 언어 모델(LLMs)에서 지속적으로 나타나는 인간과 유사한 추론의 출현 추적

요약

핵심 포인트

댓글

엔비디아 다음 세대 AI 서버는 GPU를 사는 게 아니라 점점 HBM 덩어리를 사는 것에 가까워진다.

프론트엔드를 선택 사항으로 만든 GitHub 저장소

OmniDesk v2.3.1: 이제 휴대폰에서도 Claude 코드를 실제로 구동할 수 있게 되었습니다

로컬 AI의 또 다른 대성공

엔비디아 다음 세대 AI 서버는 GPU를 사는 게 아니라 점점 HBM 덩어리를 사는 것에 가까워진다.

프론트엔드를 선택 사항으로 만든 GitHub 저장소

OmniDesk v2.3.1: 이제 휴대폰에서도 Claude 코드를 실제로 구동할 수 있게 되었습니다

로컬 AI의 또 다른 대성공