LLM 이 역사가 될 수 있는가? 중국 과거제도를 통한 LLM 의 역사 연구 능력 평가
요약
본 논문은 LLM의 역사적 추론 능력을 평가하기 위해 중국 과거제도(Keju) 시스템을 모방한 새로운 벤치마크인 ProHist-Bench를 제안합니다. 기존 벤치마크가 단순 지식이나 어휘력에 치중했던 것과 달리, ProHist-Bench는 1,300년에 걸친 동아시아의 복잡한 역사적 맥락을 다루며 증거 기반 추론 능력을 측정합니다. 엄격한 평가 결과, 최첨단 LLM조차도 복잡하고 전문적인 역사 연구 질문에 대응하는 데 상당한 어려움을 겪는 것이 밝혀졌습니다.
핵심 포인트
- LLM의 역사적 추론 능력 평가는 기존 벤치마크로는 한계가 있다.
- ProHist-Bench는 중국 과거제도(Keju)를 기반으로 개발된, 동아시아의 심층적인 역사 지식을 요구하는 새로운 평가 도구이다.
- 이 벤치마크는 8개 왕조별 400개의 전문가 질문과 10,891개의 상세한 평가 루브릭을 포함한다.
- 평가 결과, 최신 LLM이라 할지라도 복잡하고 전문적인 역사적 추론에는 여전히 숙련도 격차가 존재함을 보여준다.
대형 언어 모델 (Large Language Models, LLMs) 은 텍스트 처리와 같은 역사적 작업에 점차적으로 보조 역할을 수행해 왔지만, 전문 수준의 역사적 추론 능력을 가진지는 여전히 탐구되지 않았다. 기존의 벤치마크는 주로 기본적인 지식의 폭이나 어휘적 이해력을 평가하여, 역사 연구의 핵심인 증거 기반 추론 (evidentiary reasoning) 과 같은 고차원적 기술을 포착하지 못한다. 이 공백을 메우기 위해 우리는 중국 과거제도 (Keju) 시스템을 기반으로 한 새로운 벤치마크인 ProHist-Bench 를 소개한다. 이는 1,300 년에 걸친 동아시아 정치, 사회, 지적사의 종합적인 축소판이다. 깊은 학제 간 협력으로 개발된 ProHist-Bench 는 8 개 왕조별 400 개의 어려운 전문가가 선별한 질문과 함께 10,891 개의 세밀한 평가 rubrics 를 포함한다. 18 개의 LLM 에 대한 엄격한 평가를 통해 우리는 상당한 숙련도 격차를 드러냈다: 최첨단 LLM 이더라도 복잡한 역사 연구 질문에 대처하는 데 어려움을 겪는다. 우리는 ProHist-Bench 가 도메인 특화 추론 LLM 의 개발을 촉진하고, 계산적 역사 연구를 발전시키며, LLM 의 미발견 잠재력을 더 깊이 밝히는 데 기여하기를 바란다. 우리는 ProHist-Bench 를 https://github.com/inclusionAI/ABench/tree/main/ProHist-Bench 에서 공개한다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기