클러스터가 전부다: 해석 가능성을 위해 언어 모델의 의미론적 클러스터를 활용한 Tsetlin Machine의 사전 학습
요약
해석 가능한 Tsetlin Machine(TM)의 성능을 높이기 위해 언어 모델의 의미론적 클러스터를 활용하는 새로운 사전 학습 프레임워크를 제안합니다. 임베딩 없이 클러스터링을 통해 지식을 전달함으로써, TM이 해석 가능성을 유지하면서도 BERT 수준의 성능을 달성하도록 합니다.
핵심 포인트
- 임베딩 없이 언어 모델의 의미론적 정보를 TM에 전달하는 프레임워크 제안
- K-means 및 Top2Vec을 활용한 의미론적 클러스터링 기반 사전 학습
- 해석 가능한 키워드 학습을 통해 TM의 문맥 이해 능력 강화
- 기존 TM 대비 성능을 크게 향상시키며 BERT와 경쟁 가능한 수준 도달
BERT와 같은 사전 학습된 언어 모델 (Pre-trained language models)은 강력한 텍text 분류 성능을 달성하지만, 투명성이 부족하여 위험 부담이 큰 환경에서의 사용이 제한됩니다. Tsetlin Machine (TM)은 완전히 해석 가능한 절 기반 추론 (clause-based reasoning)을 제공하지만 의미론적 정보 (semantic information)를 거의 포착하지 못하며, 이 둘을 연결하려는 이전의 시도들은 문맥적 의미를 놓치는 정적 단어 임베딩 (static word embeddings)에 의존해 왔습니다. 우리는 임베딩을 사용하지 않고 사전 학습된 언어 모델로부터 TM으로 지식을 전달하는 의미론적 사전 학습 (semantic pre-training) 프레임워크를 제안합니다. 텍스트 샘플들은 K-means 또는 Top2Vec을 통해 의미론적으로 일관된 클러스터 (clusters)로 그룹화되며, 결과물인 클러스터-샘플 쌍은 강화된 Type I 피드백 (Type I feedback)을 갖춘 비부정 TM (non-negated TM)을 사전 학습시킵니다. 이를 통해 TM은 해석 가능한 의미론적 키워드 (semantic keywords)를 학습하며, 이는 다운스트림 태스크 (downstream tasks)에서 미세 조정 (fine-tuned)됩니다. 5개의 데이터셋에 걸쳐, 우리의 방법은 기존의 바닐라 (vanilla) 및 임베딩 기반 TM을 실질적으로 능가하며, 해석 가능성을 유지하면서도 BERT와 경쟁할 만한 성능에 도달합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기