arXiv논문2026. 06. 10. 11:16

비지도 학습 기반 용어 발견에서의 Zipf 분포 회복

요약

비지도 용어 발견 시 K-means와 같은 중심 기반 클러스터링이 Zipf 분포를 재현하지 못하는 문제를 지적합니다. 그래프 기반 클러스터링과 Leiden 알고리즘을 활용하여 실제 어휘 사전의 분포에 더 가까운 성능을 구현하는 방법을 제안합니다.

핵심 포인트

K-means의 구형 클러스터 편향이 Zipf 분포 회복을 방해함
그래프 기반 클러스터링이 중심 기반 방식보다 우수한 성능을 보임
Leiden 알고리즘을 통한 세그먼트 임베딩 분할 방식 제안
단어 및 음절 수준의 어휘 사전 발견에서 실질적 우위 증명

비지도 용어 발견 (Unsupervised term discovery)은 레이블이 없는 음성을 단어 또는 음절과 유사한 단위로 분절하고, 이를 후보 유형의 어휘 사전 (lexicon)으로 클러스터링하는 과정을 포함합니다. 실제 어휘 사전은 Zipf 분포 (Zipfian distribution)를 따르지만, 지배적인 중심 기반 클러스터링 (centre-based clustering) 방식인 K-means는 구형 클러스터 (spherical clusters)를 향한 귀납적 편향 (inductive bias)으로 인해 더 균등한 분포를 생성합니다. 본 논문에서는 하향식 (bottom-up) 대안으로서 그래프 기반 클러스터링 (graph-based clustering)을 재검토하며, 여기서는 세그먼트 임베딩 (segment embeddings)이 쌍별 유사도 (pairwise similarity)에 의해 연결되고 Leiden 알고리즘을 사용하여 분할됩니다. 우리는 그래프 클러스터링이 세 가지 언어에 걸친 단어 및 음절 수준의 어휘 사전 발견 모두에서 중심 기반 방식 (K-means, GMM, BIRCH)보다 실질적으로 우수한 성능을 보이며, 더 Zipf와 유사한 분포를 생성함을 보여줍니다. 또 다른 하향식 방식인 평균 연결법을 사용한 응집형 클러스터링 (agglomerative clustering with average linkage) 또한 좋은 성능을 보이지만, 계산 효율성이 떨어지고 결과 분포에 대한 제어력이 낮습니다. 우리의 연구는 용어 발견을 위한 중심 기반 클러스터링의 지배적 위치에 의문을 제기하며, 매력적인 대안으로서 그래프 클러스터링을 권장합니다.

AI 자동 생성 콘텐츠

원문 바로가기

비지도 학습 기반 용어 발견에서의 Zipf 분포 회복

요약

핵심 포인트

댓글