arXiv논문2026. 06. 23. 12:58

PeerCheck: LLM 생성 학술 리뷰를 인간 수준의 품질로 향상시키기

요약

LLM이 생성한 학술 리뷰의 품질을 인간 수준으로 높이기 위한 PeerCheck 프레임워크를 제안합니다. CoT와 RAG를 활용해 리뷰 품질을 개선하는 과정을 탐구하며, RAG가 오히려 품질을 저하시킬 수 있는 'RAG 역설'을 발견했습니다.

핵심 포인트

LLM과 인간은 리뷰 시 집중하는 용어와 관점이 다름을 확인
Chain-of-Thought(CoT) 적용 시 리뷰 품질이 유의미하게 향상됨
RAG 적용 시 모델에 따라 품질이 저하되는 'RAG 역설' 발견
인간과 정렬된(human-aligned) 리뷰 시스템 구축을 위한 연구 결과 제공

학술 논문 제출이 증가함에 따라 전통적인 동료 심사 (peer review) 과정이 이를 따라가는 데 어려움을 겪고 있으며, 이는 품질과 공정성에 대한 우려를 불러일으키고 있습니다. 이에 따라 대규모 언어 모델 (LLMs)을 보조 도구로 사용하는 추세가 나타났습니다. 본 연구에서는 LLM이 생성한 리뷰의 품질을 개선하기 위한 중요한 단계를 밟고자 합니다. 우리는 LLM과 인간의 리뷰 차이를 조사하고 (RQ1), LLM 생성 리뷰의 품질을 향상시키는 방법을 탐구하는 (RQ2) PeerCheck 프레임워크를 제안합니다. 먼저 인간이 작성한 리뷰와 다양한 LLM이 생성한 리뷰를 분석한 결과, LLM과 인간이 서로 다른 용어에 집중한다는 것을 발견했습니다. 예를 들어, LLM은 이론 (theory)을 우선시하는 반면 인간은 방법론 (methodology)과 실험 (experiments)을 강조합니다. 우리는 더 나아가 사고 사슬 (Chain-of-Thought, CoT)과 같은 프롬프트 엔지니어링 (prompt engineering)을 채택하고, 검색 증강 생성 (Retrieval-Augmented Generation, RAG)을 활용하여 LLM 생성 리뷰를 인간 수준의 품질로 향상시키고자 했습니다. 연구 결과, CoT는 LLM 리뷰의 품질을 유의미하게 향상시키는 반면, 예상치 못한 "RAG 역설 (RAG paradox)"을 발견했습니다. 즉, RAG를 이용한 실험은 다양한 LLM에 대해 서로 다른 결과를 생성하며, 어떤 경우에는 리뷰 품질을 오히려 저하시키기도 합니다. LLM 생성 학술 리뷰에 대한 우리의 종합적인 분석은 가능성과 한계를 모두 보여주며, 더 효과적이고 인간과 정렬된 (human-aligned) 리뷰 시스템에 기여합니다. 우리의 데이터셋은 https://github.com/TrustAIRLab/PeerCheck 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

PeerCheck: LLM 생성 학술 리뷰를 인간 수준의 품질로 향상시키기

요약

핵심 포인트

댓글