긴 회의록 문서 요약을 위한 세그먼트 수준 트리 탐색 (Segment-level Tree Search)
요약
긴 회의록 요약 시 발생하는 오류 전파 문제를 해결하기 위해 MCTS 기반의 S3 프레임워크를 제안합니다. 문서를 세그먼트로 나누고 요약 후보를 트리 구조로 탐색하여 최적의 조합을 선택하는 방식입니다.
핵심 포인트
- MCTS 기반의 학습이 필요 없는(training-free) 요약 프레임워크 제안
- 세그먼트 단위 요약 후보를 트리 노드로 구성하여 최적 조합 탐색
- 자기 보상 가이드 트리 탐색을 통한 최종 요약물 정제
- 7B 모델로 72B 모델에 필적하는 긴 문서 요약 성능 달성
회의록 문서는 그 길이와 복잡한 대화 구조로 인해 요약하기가 매우 어렵습니다. 기존의 방식들은 일반적으로 요약 이전에 정보를 추출하는 다단계 파이프라인 (multi-stage pipelines)을 채택하지만, 이러한 방식들은 중간 검증 과정이 없으면 누적된 오류 전파 (cumulative error propagation) 문제를 겪는 경우가 많으며, 짧고 품질이 낮은 참조 요약 (reference summaries)으로 인해 이러한 한계가 더욱 증폭됩니다. 우리는 세그먼트 수준의 요약 후보들을 조합하여 최종 요약을 구성하는 학습이 필요 없는 (training-free) 프레임워크인 몬테카를로 트리 탐색 (Monte Carlo Tree Search, MCTS) 기반의 세그먼트 수준 요약 (S3, segment-level summarization)을 제안합니다. S3는 긴 문서를 세그먼트 (segments)로 분할하고 세그먼트당 여러 개의 요약 후보를 생성하여 탐색 트리 (search tree)의 노드를 형성합니다. 가장 높은 점수를 받은 조합은 자기 보상 가이드 트리 탐색 (self-reward-guided tree search)을 통해 선택되며 최종 출력물로 정제됩니다. 7B 모델을 사용함에도 불구하고, S3는 길이에 적절한 요약을 생성하면서도 더 큰 72B 모델에 필적하는 성능을 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기