LLM-ReSum: 자기평가 기반 LLM 반성적 요약 프레임워크
요약
LLM의 생성 요약에 대한 신뢰성 있는 평가는 여전히 어려운 과제이며, 본 논문은 이를 해결하기 위해 자기평가 기반의 반성적 요약 프레임워크인 LLM-ReSum을 제안합니다. 광범위한 메타 평가 결과, 전통적인 지표(ROUGE 등)보다 작업 특화 신경 지표와 LLM 기반 평가자가 인간 판단과 더 높은 상관관계를 보였습니다. LLM-ReSum은 폐쇄적 피드백 루프 내에서 생성과 평가를 통합하여 사실 정확도 및 커버리지 측면에서 저품질 요약본을 크게 개선하는 성능을 입증했습니다.
핵심 포인트
- 전통적인 자동 요약 지표(ROUGE, BLEU)는 인간의 판단과 낮은 상관관계를 보였다.
- 작업 특화 신경 지표와 LLM 기반 평가자가 언어적 품질 및 사실 정확도 평가에서 우수함을 입증했다.
- LLM-ReSum은 모델 미세 조정 없이 생성과 평가를 통합하는 자기 반성적 요약 프레임워크이다.
- LLM-ReSum을 적용한 실험에서 저품질 요약본의 사실 정확도와 커버리지를 크게 개선시켰다.
- 법률 문서 요약을 위한 새로운 전문가 주석 벤치마크인 PatentSumEval을 소개했다.
대형 언어 모델 (LLM) 이 생성한 요약의 신뢰할 수 있는 평가는 여전히 해결되지 않은 과제로 남아 있으며, 특히 이질적인 도메인과 문서 길이 전반에 걸쳐 그렇습니다. 우리는 5 개 도메인의 7 개 데이터셋을 대상으로 14 가지 자동 요약 지표와 LLM 기반 평가자에 대해 포괄적인 메타 평가를 수행했습니다. 이 데이터셋에는 짧은 뉴스 기사부터 긴 과학적, 정부 및 법률 텍스트 (2K~27K 단어) 까지 다양한 문서가 포함되어 있으며, 총 1,500 개 이상의 인간이 주석 처리한 요약본을 포함하고 있습니다. 우리의 결과는 전통적인 어휘 중복 지표 (예: ROUGE, BLEU) 가 인간 판단과 약하거나 부정적인 상관관계를 보인 반면, 작업 특화 신경 지표와 LLM 기반 평가자는 훨씬 더 높은 정렬도를 달성했음을 보여줍니다. 특히 언어적 품질 평가에서 이러한 정렬도가 두드러집니다. 이 발견을 바탕으로 우리는 모델 미세 조정 (finetuning) 없이 폐쇄적 피드백 루프 내에서 LLM 기반 평가와 생성을 통합하는 자기 반성적 요약 프레임워크인 LLM-ReSum 을 제안합니다. 3 개 도메인을 대상으로 한 실험에서 LLM-ReSum 은 사실 정확도에서 최대 33%, 커버리지 (coverage) 에서 최대 39% 만큼 저품질 요약본을 개선시켰으며, 인간 평가자들은 정제된 요약본을 89% 의 경우 선호했습니다. 또한 법률 문서 요약에 대한 새로운 인간 주석 벤치마크인 PatentSumEval 을 소개합니다. 이 벤치마크에는 180 개의 전문가가 평가한 요약본이 포함되어 있습니다. 모든 코드와 데이터셋은 GitHub 에서 공개될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기