arXiv논문2026. 06. 26. 11:07

수수께끼 수수께끼: 대규모 언어 모델(LLM)과 인간의 유연한 추론 테스트

요약

LLM이 패턴 매칭을 통해 정답을 맞히는지 아니면 유연한 추론을 하는지 검증하기 위해 '수수께끼 수수께끼' 패러다임을 제안합니다. 실험 결과, LLM은 실제 수수께끼보다 문자 그대로의 해석을 요구하는 변형 문제에서 성능이 크게 저하되어, 기존의 높은 성능이 유연한 추론보다는 기억 회상에 의존할 가능성을 시사합니다.

핵심 포인트

LLM의 추론 능력이 패턴 매칭인지 유연한 추론인지 검증하는 새로운 패러다임 제안
LLM은 실제 수수께끼(84.9%)보다 변형된 수수께끼(50.7%)에서 낮은 정확도를 보임
LLM의 오류 대부분은 부적절한 창의적 추론 사용에서 비롯됨
LLM의 높은 성능은 유연한 전략 선택보다 기억 회상(memory retrieval)의 결과일 수 있음

인간은 주어진 문제의 요구 사항에 따라 추론 전략을 유연하게 조정합니다. 대규모 언어 모델 (LLMs)은 많은 인지 작업에서 우수한 성능을 보여왔으나, 이러한 정확도가 학습 데이터로부터의 패턴 매칭 (pattern matching) 결과인지 아니면 유연한 추론 (flexible reasoning)의 결과인지는 불분명합니다. 본 연구에서는 이 질문을 테스트하기 위한 새로운 패러다임인 '수수께끼 수수께끼 (riddle riddle)' 패러다임을 소개합니다. 수수께끼 수수께끼는 인기 있는 수수께끼를 모방하여 작성된 문장제 문제이지만, 정답을 위해서는 오직 문자 그대로의 해석 (literal interpretations)만을 요구하도록 변형되었습니다. 정답을 식별하기 위해서는 각 질문의 구조를 넘어 내용에 따라 서로 다른 추론 전략을 유연하게 적용해야 합니다. 만약 LLMs가 형태와 같은 표면적 특징 (surface features)에 반응한다면, 수수께끼와 유사한 구조는 모델이 문자 그대로의 해석만으로 충분한 상황에서도 창의적인 추론 전략을 사용하게 만들 것입니다. 반대로, LLMs가 내용에 기반하여 추론한다면 적절할 때 유연하게 전략을 전환해야 합니다. 9개의 최첨단 LLMs와 100명의 인간 참가자를 대상으로 한 두 번의 실험을 통해, 우리는 인간과 LLMs가 이 패러다임에서 서로 반대 방향으로 실패한다는 것을 보여줍니다. LLMs는 수수께끼 수수께끼보다 실제 수수께끼에서 훨씬 더 높은 정확도를 보였으며 (84.9% 대 50.7%), 반면 인간은 그 반대의 효과를 보였습니다 (50.5% 대 80.5%). 오류 분석 결과, LLMs가 성능 저하를 보인 조건인 수수께끼 수수께끼에서의 오류 중 90.8%는 부적절한 창의적 추론의 사용 때문이었던 반면, 실제 수수께끼에서 인간의 오류 중 문자 그대로의 추론을 과도하게 확장한 경우는 57.6%에 불과했습니다. 따라서 두 집단 모두 실수를 저지르지만, 추론 실수는 인간보다 LLMs에 의해 더 자주 발생합니다. 종합적으로, 실제 수수께끼에서 LLMs가 보여주는 강력한 성능은 유연한 전략 선택보다는 기억 회상 (memory retrieval)을 반영할 수 있으며, 이러한 대조를 유도하도록 설계된 자극이 없다면 추론처럼 보이는 LLM 생성 출력을 실제 추론과 혼동하기 쉽습니다.

AI 자동 생성 콘텐츠

원문 바로가기

수수께끼 수수께끼: 대규모 언어 모델(LLM)과 인간의 유연한 추론 테스트

요약

핵심 포인트

댓글