문자열 유사도 계산 및 분류를 위한 통계적 특징의 제안 및 연구

시각 컴퓨팅 (visual computing) 분야에서 흔히 적용되는 특징인 공출현 행렬 (co-occurrence matrix, COM) 및 런 길이 행렬 (run-length matrix, RLM)을 일반적인 문자열(단어, 구절, 코드 및 텍스트)의 유사도 계산을 위해 변형하여 제안합니다. 제안된 특징들은 언어 관련 정보에 민감하지 않습니다. 이들은 순수하게 통계적이며, 어떤 언어나 문법 구조를 가진 문맥에서도 사용될 수 있습니다. 최장 공통 부분 수열 (longest common subsequence), 최대 연속 최장 공통 부분 수열 (maximal consecutive longest common subsequence), 상호 정보량 (mutual information) 및 편집 거리 (edit distances)와 같이 해당 분야에서 흔히 채택되는 다른 통계적 척도들을 평가하고 비교합니다. 첫 번째 합성 실험 세트에서 COM 및 RLM 특징은 나머지 최첨단 (state-of-the-art) 통계적 특징들보다 우수한 성능을 보였습니다. 4가지 사례 중 3가지 사례에서 RLM 및 COM 특징은 거리 기반의 두 번째로 우수한 그룹보다 통계적으로 더 유의미했습니다 (P-value < 0.001). 실제 텍스트 표절 데이터셋의 경우, RLM 특징이 가장 좋은 결과를 얻었습니다.

Insights

문자열 유사도 계산 및 분류를 위한 통계적 특징의 제안 및 연구

요약

핵심 포인트

댓글

AI 엔지니어를 위한 10가지 에이전트 평가(Evals) 방법

Truss: 새로운 단일 사용자 로컬 하네스 (local harness)

Nike, 내년 1월부터 중국 내 온라인 도매 판매 제한 예정 – 보고서

오늘 Supermicro 주가가 급등하는 이유

AI 엔지니어를 위한 10가지 에이전트 평가(Evals) 방법

Truss: 새로운 단일 사용자 로컬 하네스 (local harness)

Nike, 내년 1월부터 중국 내 온라인 도매 판매 제한 예정 – 보고서

오늘 Supermicro 주가가 급등하는 이유