문자열 유사도 계산 및 분류를 위한 통계적 특징의 제안 및 연구
요약
본 연구는 시각 컴퓨팅 분야에서 사용되던 공출현 행렬(COM)과 런 길이 행렬(RLM)을 일반 문자열 유사도 계산에 적용하는 방법을 제안합니다. 이 특징들은 언어적 정보에 의존하지 않는 순수 통계적 특성으로, 다양한 문맥의 문자열 비교에 활용될 수 있습니다. 실험 결과, COM 및 RLM 특징은 기존의 최첨단(state-of-the-art) 통계적 척도들보다 우수한 성능을 보였으며, 특히 실제 텍스트 표절 데이터셋에서 RLM이 가장 좋은 결과를 나타냈습니다.
핵심 포인트
- COM 및 RLM 특징을 문자열 유사도 계산에 적용하여 새로운 접근 방식을 제시함.
- 제안된 특징들은 언어적 문맥이나 문법 구조에 민감하지 않은 순수 통계적 특성임.
- 실험 결과, COM과 RLM은 기존의 최첨단(state-of-the-art) 통계적 척도들보다 우수한 성능을 입증함.
- 특히 실제 텍스트 표절 데이터셋에서는 RLM 특징이 가장 높은 성능을 보임.
시각 컴퓨팅 (visual computing) 분야에서 흔히 적용되는 특징인 공출현 행렬 (co-occurrence matrix, COM) 및 런 길이 행렬 (run-length matrix, RLM)을 일반적인 문자열(단어, 구절, 코드 및 텍스트)의 유사도 계산을 위해 변형하여 제안합니다. 제안된 특징들은 언어 관련 정보에 민감하지 않습니다. 이들은 순수하게 통계적이며, 어떤 언어나 문법 구조를 가진 문맥에서도 사용될 수 있습니다. 최장 공통 부분 수열 (longest common subsequence), 최대 연속 최장 공통 부분 수열 (maximal consecutive longest common subsequence), 상호 정보량 (mutual information) 및 편집 거리 (edit distances)와 같이 해당 분야에서 흔히 채택되는 다른 통계적 척도들을 평가하고 비교합니다. 첫 번째 합성 실험 세트에서 COM 및 RLM 특징은 나머지 최첨단 (state-of-the-art) 통계적 특징들보다 우수한 성능을 보였습니다. 4가지 사례 중 3가지 사례에서 RLM 및 COM 특징은 거리 기반의 두 번째로 우수한 그룹보다 통계적으로 더 유의미했습니다 (P-value < 0.001). 실제 텍스트 표절 데이터셋의 경우, RLM 특징이 가장 좋은 결과를 얻었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기