arXiv논문2026. 05. 27. 12:18

MATCHA: 대조적 의미 정렬을 통한 텍스트 매칭

요약

기존 ROUGE나 BERTScore 같은 지표가 가진 의미적 유사성 판단 오류를 해결하기 위해 MATCHA를 제안합니다. MATCHA는 정답과의 근접성과 모순과의 거리를 동시에 측정하는 이중 관점을 통해 인간의 평가와 더 높은 일치도를 보입니다.

핵심 포인트

기존 토큰 중첩 및 임베딩 지표의 의미적 모순 판단 한계 지적
정답 근접성과 반사실적 모순 거리를 활용한 MATCHA 제안
8개 벤치마크에서 기존 지표 대비 우수한 성능 입증
TruthfulQA 데이터셋에서 ROUGE-L 및 BERTScore를 크게 상회

신뢰할 수 있는 평가는 대규모 언어 모델 (LLM)의 성능을 이해하는 데 필수적이지만, 오늘날 주로 사용되는 지표인 토큰 중첩 점수 (예: ROUGE) 및 임베딩 기반 측정 방식 (예: BERTScore)은 문서의 의미적 유사성 (semantic similarity)을 잘못 판단하는 경우가 많습니다. 본 연구는 토큰 중첩 지표와 임베딩 기반 지표 모두 서로 정면으로 모순되는 텍스트에 대해 일관되게 거의 동일한 점수를 부여하며, 이로 인해 근본적인 오류를 은폐할 가능성이 있음을 보여줍니다. 우리는 참조 문장 (reference)과의 의미적 일치에는 보상을 주고 모순에는 벌점을 부여하는 자동 지표인 MATCHA를 소개합니다. MATCHA는 (i) 정답 텍스트 (gold text)와의 근접성 및 (ii) 적대적으로 생성된 반사실적 모순 (counterfactual contradiction)으로부터의 거리를 측정하는 이중 관점 (dual-view perspective)을 채택합니다. 8개의 공개 벤치마크에서 MATCHA는 질의응답 (question-answering), 이미지 캡션 생성 (image caption generation), 자연어 추론 (natural language inference), 요약 (summarization), 그리고 의미적 텍스트 유사성 (semantic textual similarity) 작업에 대한 인간 주석 (human annotations)과 비교했을 때 기존의 인기 있는 지표들을 능가합니다. 임베딩 기반 지표가 로컬에서 학습할 수 없는 학습 세트가 없는 데이터셋인 TruthfulQA 데이터셋에서, 참조 문장과 텍스트를 매칭하는 측면에서의 이러한 개선은 ROUGE-L 대비 18.38%, BERTScore 대비 20.82%에 달합니다. 정량적 비교와 정성적 인간 평가 모두 MATCHA의 효능과 타당성을 확인하며, 기존 지표들의 근본적인 약점을 드러냅니다. BERTScore와 유사한 지표로 사용된 최첨단 모델을 포함한 23개의 임베딩 모델과 비교했을 때, MATCHA는 오직 참조 문장에만 기반하여 정답과 오답을 구별하는 데 있어 가장 정확한 성능을 유지합니다. 우리의 코드와 지표는 공개적으로 사용 가능합니다 (https://github.com/Siran-Li/MATCHA).

AI 자동 생성 콘텐츠

원문 바로가기

MATCHA: 대조적 의미 정렬을 통한 텍스트 매칭

요약

핵심 포인트

댓글