수동적 생성에서 탐색으로: 능동적인 과학 동료 검토 에이전트
요약
본 논문은 LLM 기반의 과학 동료 검토 에이전트 ProReviewer를 제안합니다. 기존 방식의 한계인 능동적 증거 조사 부족 문제를 해결하기 위해, 이 에이전트는 MDP로 공식화되어 구조화된 리뷰 로그를 통해 논문을 심층적으로 검토합니다. 실험 결과, ProReviewer는 프롬프트 기반 방법보다 월등히 높은 성능을 보였습니다.
핵심 포인트
- ProReviewer는 능동적인 증거 조사를 수행하는 과학 동료 검토 에이전트입니다.
- MDP(마르코프 결정 과정)로 공식화되어 구조화된 리뷰 로그를 사용합니다.
- 지도 미세 조정 및 강화 학습으로 훈련되어 높은 성능을 입증했습니다.
- 기존 프롬프트 기반 방법 대비 최대 39% 더 우수한 성능을 보였습니다.
대규모 언어 모델(LLMs)은 과학 분야의 동료 검토를 자동화하는 데 가능성을 보여주었습니다. 하지만 기존 접근 방식들은 구체적인 증거에 의해 뒷받침되는 심층적인 리뷰를 생성하는 데 어려움을 겪는 경우가 많습니다. 우리는 핵심적인 한계가 인간 검토자가 하는 것처럼 축적된 증거를 기반으로 논문의 의심스러운 부분을 능동적으로 조사할 수 있는 유연성이 부족하다는 점이라고 주장합니다. 본 논문에서는 LLM 기반의 리뷰 에이전트가 이러한 능동적인 조사를 수행하도록 하는 방법을 탐구합니다. 우리는 이것이 마르코프 결정 과정(MDP)으로 자연스럽게 공식화될 수 있음을 발견하고, 유지되는 구조화된 리뷰 로그를 통해 논문을 능동적으로 검토하는 과학 동료 검토 에이전트인 ProReviewer를 제안합니다. 이 구조화된 리뷰 로그는 에이전트가 검토 과정에서 수집한 증거와 중간 결과를 추적하기 위한 작업 공간 역할을 합니다. 실험 결과에 따르면, 지도 미세 조정(supervised fine-tuning)으로 훈련되고 강화 학습(reinforcement learning)으로 최적화된 8B 백본을 가진 ProReviewer는 다섯 가지 품질 차원 전반에서 가장 높은 평균 점수를 달성했으며, 훨씬 더 큰 프론티어 LLMs를 사용한 프롬프트 기반 방법보다 최대 39% 더 우수하고, 가장 강력하게 미세 조정된 기준선보다 상대적으로 16% 더 우수한 성능을 보였습니다. 또한 인간 평가에서 기준선 대비 가장 높은 승률을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기