GraphReview: LLM 기반 그래프 메시지 패싱을 통한 과학 논문 평가
요약
GraphReview는 논문 간의 관계를 그래프로 모델링하여 과학 논문을 평가하는 새로운 LLM 프레임워크입니다. 메시지 패싱 기법을 통해 논문 간의 리뷰 신호를 통합함으로써 기존 방식보다 높은 정확도와 순위 지정 성능을 보여줍니다.
핵심 포인트
- 의미론적 논문 그래프를 통한 리뷰 신호 전파 메커니즘 제안
- LLM과 Personalized PageRank를 결합한 품질 순위 및 리뷰 생성
- 기존 베이스라인 대비 결정 및 순위 지표에서 평균 29.7% 향상
- 다양한 시기 및 컨퍼런스 환경에 대한 효과적인 일반화 성능
과학 논문 평가(Scientific paper evaluation)는 종종 원고 자체를 평가하는 것뿐만 아니라, 이를 동시대 연구 및 이전 문헌과 연관 짓는 과정을 포함합니다. 그러나 기존의 LLM 기반 방법들은 일반적으로 이러한 신호들을 개별적으로 모델링하며, 논문 간에 리뷰 증거(review evidence)를 전파하기 위한 통합된 메커니즘이 부족합니다. 우리는 논문 평가를 의미론적 논문 그래프(semantic paper graph) 상의 리뷰 신호 메시지 패싱(review-signal message passing)으로 공식화하는 그래프 기반 LLM 프레임워크인 $\textbf{GraphReview}$를 제안합니다. 이 그래프는 내재적 품질(intrinsic quality), 동시대 논문 간의 공시적 연결(synchronic links), 그리고 이전 연구와의 통시적 연결(diachronic links)을 공동으로 포착합니다. LLM은 노드 수준의 품질 사전 확률(quality priors)을 추정하고 쌍체 논문 비교(pairwise paper comparisons)를 통해 엣지 수준의 비교 증거를 생성하는 데 사용되며, Personalized PageRank는 품질 순위 지정(quality ranking), 결정 예측(decision prediction), 그리고 리뷰 생성(review generation)을 위해 리뷰 신호를 통합합니다. 더 높은 품질의 그래프 증거를 생성하기 위해, 우리는 LLM 백본(backbone)을 학습시키기 위한 보상 유도 최대 우도 목적 함수(reward-induced maximum likelihood objectives)를 제안합니다. 실험 결과, GraphReview는 가장 강력한 베이스라인(baseline)을 지속적으로 능가하며, 결정 및 순위 지표에서 평균 29.7%의 향상을 달성했습니다. 여기에는 정확도(Accuracy)에서 23.7%, Spearman의 $\rho$에서 57.6%의 이득이 포함됩니다. 또한 더 높은 품질의 리뷰 텍스트를 생성하며, 다양한 시기 및 컨퍼런스 개최지(conference venues)에 대해 효과적으로 일반화됩니다. 코드는 https://github.com/ECNU-Text-Computing/GraphReview 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기