과학자로서의 성인 인간과 LLM: 능동적 탐색(Active Exploration)의 수혜자는 누구인가?
요약
성인의 인과 추론 능력과 LLM의 성능을 능동적 탐색 관점에서 비교 분석한 연구입니다. 능동적 탐색이 성인의 논리곱 인과 추론을 향상시키지만, LLM은 인간과 유사한 성능 격차를 보이면서도 탐색 효율성은 떨어지는 경향을 보입니다.
핵심 포인트
- 능동적 탐색은 성인의 논리곱 인과 추론 능력을 실질적으로 향상시킴
- 논리곱 규칙은 논리합 규칙보다 더 많은 테스트를 요구하는 특성이 있음
- 최첨단 LLM은 인간 수준의 정확도에 근접하나 탐색 전략은 덜 효율적임
- LLM에서도 인간과 유사한 논리곱/논리합 간의 성능 격차가 관찰됨
인과 학습 (Causal learning) 문헌의 오랜 발견 중 하나는, 성인들이 논리합 (Disjunctive) 설정에서는 더 나은 성능을 보이는 반면, 하나의 결과가 여러 원인의 동시 존재를 요구하는 논리곱 (Conjunctive) 인과 규칙을 식별하는 데는 어려움을 겪는다는 것입니다. 그러나 이러한 "논리곱 핸디캡 (Conjunctive handicap)"에 대한 대부분의 입증은 학습자가 증거 생성에 대한 통제권이 없는, 제한된 증거를 가진 수동적 관찰 패러다임 (Passive observation paradigms)에 의존하고 있습니다. 본 논문은 성인에게 능동적 탐색 (Active exploration)을 통한 주체성 (Agency)이 부여되었을 때도 이러한 편향이 지속되는지 질문합니다. 수정된 "블리켓 디텍터 (Blicket detector)" 과제를 사용하여, 성인 참가자들은 논리곱 또는 논리합 규칙 구조 하에서 인과적 객체를 식별하기 위해 자유롭게 개입하였습니다. 연구 결과, 능동적 탐색은 성인의 논리곱 인과 추론 (Conjunctive causal reasoning)을 실질적으로 향상시키지만, 논리곱 규칙은 여전히 논리합 규칙보다 추론을 위해 더 많은 테스트를 필요로 한다는 것을 보여줍니다. 나아가 우리는 동일한 설정에서 인간의 성능을 다양한 대규모 언어 모델 (Large Language Models, LLMs)과 비교하였습니다. 일부 최첨단 (State-of-the-art) 모델들은 가설 추론 정확도 측면에서 인간 수준의 성능에 근접하지만, 종종 덜 효율적인 탐색 전략을 보이며 논리곱과 논리합 간의 유사한 성능 격차를 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기