arXiv논문2026. 06. 12. 12:24

수동적 생성에서 탐색으로: 능동적인 과학 동료 검토 에이전트

요약

본 논문은 LLM 기반의 과학 동료 검토 에이전트 ProReviewer를 제안합니다. 기존 방식의 한계인 능동적 증거 조사 부족 문제를 해결하기 위해, 이 에이전트는 MDP로 공식화되어 구조화된 리뷰 로그를 통해 논문을 심층적으로 검토합니다. 실험 결과, ProReviewer는 프롬프트 기반 방법보다 월등히 높은 성능을 보였습니다.

핵심 포인트

ProReviewer는 능동적인 증거 조사를 수행하는 과학 동료 검토 에이전트입니다.
MDP(마르코프 결정 과정)로 공식화되어 구조화된 리뷰 로그를 사용합니다.
지도 미세 조정 및 강화 학습으로 훈련되어 높은 성능을 입증했습니다.
기존 프롬프트 기반 방법 대비 최대 39% 더 우수한 성능을 보였습니다.

대규모 언어 모델(LLMs)은 과학 분야의 동료 검토를 자동화하는 데 가능성을 보여주었습니다. 하지만 기존 접근 방식들은 구체적인 증거에 의해 뒷받침되는 심층적인 리뷰를 생성하는 데 어려움을 겪는 경우가 많습니다. 우리는 핵심적인 한계가 인간 검토자가 하는 것처럼 축적된 증거를 기반으로 논문의 의심스러운 부분을 능동적으로 조사할 수 있는 유연성이 부족하다는 점이라고 주장합니다. 본 논문에서는 LLM 기반의 리뷰 에이전트가 이러한 능동적인 조사를 수행하도록 하는 방법을 탐구합니다. 우리는 이것이 마르코프 결정 과정(MDP)으로 자연스럽게 공식화될 수 있음을 발견하고, 유지되는 구조화된 리뷰 로그를 통해 논문을 능동적으로 검토하는 과학 동료 검토 에이전트인 ProReviewer를 제안합니다. 이 구조화된 리뷰 로그는 에이전트가 검토 과정에서 수집한 증거와 중간 결과를 추적하기 위한 작업 공간 역할을 합니다. 실험 결과에 따르면, 지도 미세 조정(supervised fine-tuning)으로 훈련되고 강화 학습(reinforcement learning)으로 최적화된 8B 백본을 가진 ProReviewer는 다섯 가지 품질 차원 전반에서 가장 높은 평균 점수를 달성했으며, 훨씬 더 큰 프론티어 LLMs를 사용한 프롬프트 기반 방법보다 최대 39% 더 우수하고, 가장 강력하게 미세 조정된 기준선보다 상대적으로 16% 더 우수한 성능을 보였습니다. 또한 인간 평가에서 기준선 대비 가장 높은 승률을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

수동적 생성에서 탐색으로: 능동적인 과학 동료 검토 에이전트

요약

핵심 포인트

댓글