꼬리 분포 격차 해소: 다단계 패러프레이즈 주입을 통한 견고한 검색 증강 관계 완성
요약
본 논문은 대규모 언어 모델(LLMs)이 정보 추출이나 희소한 관계 완성에 어려움을 겪는 문제를 해결하기 위해 'RC-RAG'라는 다단계 패러프레이즈 가이드 관계 완성 프레임워크를 제안합니다. RC-RAG는 검색 단계와 생성 단계 모두에 체계적인 패러프레이즈 통합을 통해 관계의 어휘적 범위를 확장하고 추론 과정을 안내하여, 모델 미세 조정 없이도 높은 성능을 달성하는 것이 특징입니다. 실험 결과, 특히 꼬리 분포(long-tail) 설정에서 기존 RAG 베이스라인 대비 현저히 우수한 성능 향상을 입증했습니다.
핵심 포인트
- LLMs의 관계 완성 및 검색 증강 생성(RAG) 한계를 극복하기 위해 'RC-RAG' 프레임워크를 제안함.
- RC-RAG는 패러프레이즈를 검색, 요약, 추론 안내 등 다단계 과정에 통합하여 성능을 향상시킴.
- 모델 미세 조정(fine-tuning) 없이도 높은 성능을 달성할 수 있어 효율적임.
- 실험 결과, 꼬리 분포 설정에서 기존 RAG 베이스라인 대비 최대 40.6점의 Exact Match (EM) 점수 향상을 기록함.
대규모 언어 모델 (LLMs) 은 정보 추출이 필요하거나 희소하게 표현된 경우에도 관계 완성 (RC) 과 검색 증강 생성 (RAG) 을 모두 수행하는 데 어려움을 겪습니다. 이를 해결하기 위해 우리는 여러 단계를 체계적으로 포함하여 관계 패러프레이즈를 통합하는 새로운 다단계 패러프레이즈 가이드 관계 완성 프레임워크인 RC-RAG 를 제안합니다. 특히 RC-RAG 는 다음과 같은 특징을 가집니다: (a) 검색에 패러프레이즈를 통합하여 관계의 어휘적 범위를 확장하고, (b) 패러프레이즈를 사용하여 관계 인식 요약문을 생성하며, (c) 생성 과정에서 패러프레이즈를 활용하여 관계 완성을 위한 추론을 안내합니다. 중요한 점은 우리의 방법이 모델 미세 조정 (fine-tuning) 이 필요 없다는 것입니다. 두 벤치마크 데이터셋에서 다섯 개의 LLM 을 사용한 실험 결과, RC-RAG 가 여러 RAG 베이스라인보다 일관되게 우수한 성능을 보였습니다. 꼬리 분포 (long-tail) 설정에서 RC-RAG 로 증강된 가장 성능이 좋은 LLM 은 단독 사용 대비 40.6 점의 Exact Match (EM) 점수 향상을 기록했으며, 두 가지 강력한 RAG 베이스라인보다 각각 16.0 점과 13.8 점의 EM 점수로 더 높은 성능을 보였습니다. 또한 낮은 계산 오버헤드를 유지했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기