arXiv논문2026. 06. 10. 10:34

어텐션 확장: 어텐션 증강 문맥화 임베딩을 통한 긴 문서에서의 핵심구 추출 성능 향상

요약

긴 문서의 핵심구 추출(KPE) 성능을 높이기 위해 사전 학습된 단어 임베딩을 활용한 '어텐션 확장' 메커니즘을 제안합니다. 이 방식은 계산 비용이 높은 긴 문맥 LLM 대신, 주변 문맥 외 정보를 활용해 PLM의 문맥 범위를 효율적으로 확장합니다.

핵심 포인트

긴 문서 KPE의 한계인 제한된 문맥 창 문제 해결
비용 효율적인 어텐션 확장 메커니즘 제안
전체 문서 어텐션 없이도 효과적인 문맥 증강 가능
다양한 PLM 백본 및 벤치마크에서 SOTA 성능 달성

사전 학습된 언어 모델 (Pre-trained language models, PLMs)은 풍부한 문맥화된 표현 (contextualized representations)을 생성하는 능력 덕분에 핵심구 추출 (keyphrase extraction, KPE) 분야에서 강력한 성능을 달성했습니다. 그러나 긴 문서의 KPE는 여전히 도전적인 과제로 남아 있는데, 이는 두드러진 핵심구 증거가 문서의 멀리 떨어진 섹션들에 흩어져 있을 수 있으며, 대부분의 PLMs가 가진 제한된 문맥 창 (context window) 내에서는 이를 공동으로 포착할 수 없기 때문입니다. 긴 문맥을 처리할 수 있는 긴 문맥 대규모 언어 모델 (long-context large language models, LLMs)이 더 넓은 텍스트 문맥을 처리할 수 있지만, 이들의 계산 비용은 효율적이고 높은 처리량을 요구하는 KPE에서의 실용성을 제한합니다. 이러한 한계를 극복하기 위해, 우리는 사전 학습된 단어 임베딩 (word embeddings)을 사용하여 주변의 문맥 외 청크 (out-of-context chunks)로부터 얻은 정보로 PLM 토큰 표현을 증강하는 어텐션 확장 (attention expansion) 메커니즘을 제안합니다. 제안된 메커니즘은 전체 문서에 대한 어텐션 (full-document attention)이나 비용이 많이 드는 LLM 기반 추론 (LLM-based inference)을 요구하지 않으면서도 PLM 기반 KPE 모델의 유효한 문맥 범위를 확장합니다. 우리는 범용, 과학, 작업 특화 및 긴 문맥 인코더를 포함한 5가지 PLM 백본 (backbones)에 대해, 두 가지 학습 체계와 과학 및 뉴스 도메인의 5가지 벤치마크 코퍼스 (benchmark corpora)를 사용하여 우리의 접근 방식을 평가합니다. 실험 결과, 어텐션 확장은 모든 평가 설정에서 일관되게 KPE 성능을 향상시키며, 최신 모델 (state-of-the-art models)을 능가하고 F1 점수에서 주목할 만한 개선을 보여주었습니다. 이러한 개선은 도메인 특화, 작업 특화 및 네이티브 긴 문맥 모델로까지 확장되며, 이는 제안된 메커니즘이 단순히 제한된 입력 길이를 보완하는 것을 넘어 상호 보완적인 정보를 제공함을 보여줍니다. 이러한 결과는 어텐션 확장이 긴 문서 KPE를 위한 효율적이고 효과적인 전략임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

어텐션 확장: 어텐션 증강 문맥화 임베딩을 통한 긴 문서에서의 핵심구 추출 성능 향상

요약

핵심 포인트

댓글