벤치마크 구축을 통한 AI 교육: 책임감 있는 지식 노동을 위한 교과 기반 실습으로서의 QuestBench
요약
AI를 단순한 생산성 도구로 사용하는 것을 넘어, 학생들이 직접 벤치마크를 구축하며 AI의 지식을 비판적으로 검증하는 교육 모델을 제안합니다. 이를 위해 인문학 및 사회과학 분야의 질문 256개로 구성된 QuestBench를 개발하였으며, 실험 결과 현재의 심층 연구 시스템들이 가진 한계를 드러내는 데 성공했습니다.
핵심 포인트
- AI 교육의 방향을 단순 프롬프트 활용에서 AI 생성 지식을 판단하는 비판적 역량 강화로 전환해야 함
- QuestBench는 학생들이 전공 지식을 바탕으로 전문가 수준의 질문을 설계하고 AI를 평가하는 실습 도구임
- 실험 결과, GPT-5.5를 포함한 최신 시스템들도 QuestBench의 질문에 대해 낮은 통과율을 보이며 한계를 드러냄
- 벤치마크 구축 과정은 학생들이 전문 지식을 AI 출력을 검증하는 근거로 인식하게 하는 교육적 효과가 있음
AI가 일상적인 학습의 일부가 됨에 따라, 많은 강의가 학생들에게 AI를 주로 생산성 도구로 사용하는 방법, 즉 프롬프트 작성(prompting), 검색, 요약, 글쓰기, 코딩 및 도구를 더 효율적으로 사용하는 방법을 가르치고 있습니다. 우리는 AI 교육이 학생들이 AI를 테스트하고, 기계가 생성한 지식을 판단하는 데 있어 자신의 역할을 이해할 수 있는 환경도 필요하다고 주장합니다. 이를 위해 우리는 심층 연구 시스템(deep research systems)을 AI 시대 지식 노동의 구체적인 사례로 사용하여, 벤치마크 구축(benchmark construction)을 통해 AI를 가르치는 교과 기반 실습을 소개합니다. 학생들은 전공 지식을 검증 가능한 전문가 수준의 질문으로 변환하고, 모호함이나 지름길이 있는지 서로의 설계를 검토하며, 결과물인 과제를 바탕으로 AI 시스템을 평가합니다. 이 활동은 학생들에게 강력한 도구를 직접 접하게 하는 동시에, 신뢰할 수 있는 답변을 위해서는 무엇이 필요한지를 구체화하도록 요구합니다. 제작된 벤치마크인 QuestBench는 인문학 및 사회과학의 14개 영역에 걸친 256개의 질문으로 구성됩니다. QuestBench를 통한 평가 결과, 학생이 설계한 과제들은 현재의 심층 연구 시스템들이 가진 숨겨진 실패 사례들을 드러냈습니다. 평가된 13개의 시스템 전체에서 질문 수준의 평균 통과율은 16.85%에 불과했으며, 가장 성능이 좋은 시스템인 GPT-5.5조차 57.58%의 통과율을 기록했습니다. 이러한 실패는 교육적으로 유용합니다. 왜냐하면 유창하고 출처가 뒷받침된 답변이라 할지라도 적절한 쿼리(query), 출처, 용어 또는 증거 표준을 놓칠 수 있음을 보여주기 때문입니다. 5명의 학생 기여자의 성찰에 따르면, 벤치마크 구축은 학생들이 전문 지식을 단순히 AI가 검색할 수 있는 콘텐츠로 보는 것이 아니라, AI 출력을 판단하는 근거로 인식하는 데 도움을 줄 수 있습니다. 우리는 QuestBench를 벤치마크 산출물로서, 그리고 더 큰 교육적 질문, 즉 AI가 학습과 전문 업무에 진입함에 따라 학생들이 어떻게 책임감 있는 지식 행위자로 남을 수 있는지에 대한 재사용 가능한 교실 환경으로서 제시합니다. 데이터셋은 https://huggingface.co/datasets/PKUAIWeb/QuestBench/tree/main 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기