arXiv논문2026. 06. 17. 10:44

제목-초록 스크리닝에서의 LLM 이해: 불일치에서 권장 사항까지

요약

체계적 문헌고찰(SRs)의 제목-초록 스크리닝 과정에서 LLM과 인간 전문가 간의 불일치 원인을 질적으로 분석한 연구입니다. 용어의 모호성 및 잘못된 주제 추론 등 실패 원인을 규명하고, 신뢰성 향상을 위한 실행 가능한 권장 사항을 제안합니다.

핵심 포인트

LLM과 인간 전문가 간 Kappa 지표 0.52~0.77 기록
용어 경계 모호성 및 키워드 과도 강조가 주요 불일치 원인
배포 전 의미론적 이해 검증 및 다중 LLM 실행 권장
경계 사례(borderline cases)에 대한 집중 검증 필요성 강조

여러 연구에서 체계적 문헌고찰 (SRs)의 제목-초록 스크리닝 (title-abstract screening)을 위한 거대 언어 모델 (LLMs)의 활용을 조사하였으며, 혼재된 정확도를 보고했습니다. 그러나 신뢰성에 대한 문제는 여전히 상당 부분 다뤄지지 않은 상태로 남아 있습니다. 본 연구에서는 정량적인 LLM-인간 일치도 지표를 넘어, LLM이 어떻게 그리고 왜 실패하는지를 질적으로 조사합니다. 또한 실행 가능한 권장 사항을 제안합니다. 우리는 6개의 소프트웨어 공학 SRs 및 1,000개 이상의 1차 연구 논문 전반에 걸쳐 LLM과 연구자 간의 불일치를 분석했습니다. 각 SR에 대해, 논문들은 인간 전문가와 LLM(제로샷 모드)에 의해 독립적으로 스크리닝되었으며, 그 결과 Kappa 값은 0.52에서 0.77 사이로 나타났습니다. 질적 분석에 따르면, 인간-LLM 간의 불일치는 핵심 용어의 경계 모호성 (boundary ambiguity), 키워드 과도 강조, 잘못된 주제 추론과 같이 반복적이고 식별 가능한 원인에서 비롯됩니다. 이러한 발견을 바탕으로, 우리는 배포 전 의미론적 이해 (semantic understanding) 검증, 여러 LLM 실행, 경계 사례 (borderline cases)에 대한 검증 노력 집중 등의 권장 사항을 제안합니다. 우리의 권장 사항이 미치는 영향을 검증하기 위한 향후 연구가 필요하며, SRs에서의 LLM 사용에 관한 규범적 가이드라인을 개발하기 위한 커뮤니티의 노력이 필요합니다.

AI 자동 생성 콘텐츠

원문 바로가기

제목-초록 스크리닝에서의 LLM 이해: 불일치에서 권장 사항까지

요약

핵심 포인트

댓글