arXiv논문2026. 05. 25. 16:47

SSDAU: 개체 및 관계 추출 결합을 위한 구조적 의미론적 데이터 증강

요약

JERE 모델의 일반화 성능을 높이기 위해 텍ities의 의미론적 구조를 보존하는 새로운 데이터 증강 기법인 SSDAU를 제안합니다. SSDAU는 개체 의미론적 재구조화와 BERTTopic을 활용하여 주제 일관성을 유지하며, 기존 방식 대비 뛰어난 강건성을 입증했습니다.

핵심 포인트

SSDAU는 텍يث의 의미론적 구조와 의존성을 보존하며 데이터를 증강함
개체 의미론적 재구조화와 문맥화된 임베딩 융합 기술 적용
BERTTopic을 통해 주제 모호성을 완화하고 일관성 확보
기존 베이스라인 대비 F1 점수 하락폭을 크게 줄여 강건성 증명

개체 및 관계 추출 결합 (Joint Entity and Relation Extraction, JERE)은 저품질의 학습 데이터로 인해 일반화 성능이 매우 취약합니다. 데이터 증강 (Data augmentation)은 서로 다른 도메인에 걸쳐 모델의 일반화 성능을 향상시키기 위한 일반적인 전략입니다. 그러나 기존의 데이터 증강 방법들은 텍스트의 관련성을 간과하는 경우가 많으며, 의미론적 구조 (semantic structures)와 의존성 (dependencies)을 파괴할 수 있어 모델의 일반화를 개선하기 위한 효과적인 증강 데이터를 생성하는 데 어려움이 있습니다. 본 논문에서는 증강 과정에서 텍스트의 의미론적 구조를 보존하도록 설계된 새로운 방법인 구조적 의미론적 데이터 증강 (Structured Semantic Data Augmentation, SSDAU)을 제안합니다. SSDAU는 개체 레이블 (entity labels)을 기반으로 텍스트를 분할하고, 인코더 (encoder)를 사용하여 문맥 인식 (context awareness)을 통해 개체의 의미론적 특징 (semantic features)을 포착합니다. 그 후, 증강된 데이터를 생성하기 위해 개체 의미론적 재구조화 (entity semantic restructuring)를 수행합니다. 의미론적으로 유사한 개체를 구별하기 위해, SSDAU는 문맥화된 임베딩 (contextualized embeddings)을 전통적인 유사도 점수 (similarity scores)와 융합합니다. 잠재적인 주제 모호성 (topic ambiguity)과 정보 손실을 완화하기 위해, 우리는 BERTTopic 모델을 적용하여 관련 없는 주제를 필터링함으로써 주제 일관성 (topic consistency)을 보장합니다. 우리는 다양한 주석 유형 (annotation types)을 가진 데이터셋에서 SSDAU를 평가하였으며, 5개의 대표적인 JERE 모델에 대해 7개의 대중적인 데이터 증강 베이스라인 (baselines)과 성능을 비교하였습니다. 실험 결과, SSDAU는 의미론적으로 일관된 데이터를 생성하며 모호성에 대해 우수한 강건성 (robustness)을 보여주었으며 (베이스라인의 F1 점수 31.91% 감소 대비 8.26% 감소), 모든 지표에서 기존의 모든 방법보다 크게 뛰어난 성능을 입증하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SSDAU: 개체 및 관계 추출 결합을 위한 구조적 의미론적 데이터 증강

요약

핵심 포인트

댓글