arXiv논문2026. 06. 15. 03:48

대규모 언어 모델을 활용한 사회 및 행동 과학 분야의 자동 재현성 평가

요약

본 논문은 대규모 언어 모델(LLMs)이 사회 및 행동 과학 분야의 재현성 평가를 자동화할 수 있음을 제시합니다. LLM 파이프라인을 통해 41%의 연구에서 원본 효과 크기를 복구했으며, 질적 결론 도출률도 높았습니다. 이는 LLMs가 학술 연구 결과에 대한 확장 가능한 감사 도구가 될 수 있음을 시사합니다.

핵심 포인트

LLMs를 활용하여 사회과학 분야 재현성 평가 자동화 가능
LLM 파이프라인은 원본 효과 크기 복구율 41% 달성
질적 결론 도출률에서 인간보다 높은 성능을 보임 (96%)
학술 연구 결과에 대한 체계적인 감사(auditing) 기반 제공

사회 및 행동 과학 분야에서 재현성은 일반적으로 독립적인 연구자들이 원본 데이터를 재분석하여 발표된 결과가 복구될 수 있는지 여부를 평가함으로써 평가됩니다. 그러나 이러한 접근 방식은 자원 집약적이며 확장하기 어렵습니다. 본 논문에서는 대규모 언어 모델(LLMs)이 재현성 평가를 자동화할 수 있음을 보여줍니다. 행동 및 사회 과학 분야의 미리 정의된 주장(claims)을 가진 N=76개의 발표된 연구를 사용하여, 우리는 LLM이 생성한 분석 결과를 원본 결과 및 인간의 재분석과 비교했습니다. 7개 연구에서는 LLM이 실행 가능한 효과 크기 추정치(effect size estimate)를 산출하지 못했습니다. 나머지 연구에 대해서는, 우리의 LLM 파이프라인이 코헨의 d(Cohen's d)에서 +/-0.05 허용 오차를 사용하여 41%의 연구에서 원본 효과 크기를 복구했습니다. 나아가, 우리의 LLM 파이프라인은 결론이 재분석이 원본 주장을 뒷받침하는지 여부를 나타내는 경우, 96%의 사례에서 원본 연구와 동일한 질적 결론에 도달했습니다. 비교를 위해, 인간 재분석가들은 34%의 연구에서 원본 효과 크기를 복구했으며, 74%의 사례에서 동일한 질적 결론에 도달했습니다. 종합적으로, 이러한 결과는 LLMs가 자동화된 재현성 평가를 위한 확장 가능한 도구로 활용될 수 있으며, 사회 및 행동 과학 분야의 경험적 결과에 대한 체계적인 감사(systematic auditing)의 기반을 제공할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델을 활용한 사회 및 행동 과학 분야의 자동 재현성 평가

요약

핵심 포인트

댓글