arXiv논문2026. 05. 06. 16:44

LLM-XTM: 대규모 언어 모델과 결합된 다국어 주제 모델 개선

요약

LLM-XTM은 다국어 주제 모델링의 한계를 극복하기 위해 제안된 프레임워크입니다. 이 방법은 대규모 언어 모델(LLM) 유도 주제 정교화와 자기 일관성 불확실성 양적을 결합하여, 기존 모델들이 겪던 희소한 자원 의존성 및 불안정성을 개선합니다. LLM-XTM은 다국어 코퍼스에서 주제의 일관성과 정렬을 향상시키면서도 비용 효율적이고 안정적인 성능을 보여줍니다.

핵심 포인트

기존 다국어 주제 모델링은 희소한 자원과 불안정한 주제 생성에 어려움을 겪는다.
LLM-XTM은 LLM 유도 정교화와 자기 일관성 불확실성 양적을 통합하여 성능을 개선한다.
이 프레임워크는 블랙박스 방식으로 작동하며, 고가의 LLM 호출이나 별도의 사전 의존도를 줄여 비용 효율성을 높인다.
실험 결과, LLM-XTM은 주제의 일관성과 언어 간 정렬(alignment)을 효과적으로 향상시킨다.

다국어 주제 모델링 (Cross-lingual topic modeling) 은 여러 언어 간 공유된 의미론적 구조를 발견하는 것을 목표로 하지만, 기존 모델은 희소한 양국어 자원에 의존하며 종종 불일치하거나 약하게 정렬된 주제를 생성합니다. 최근 LLM 기반 개선안은 해석 가능성을 향상시키지만 비용이 많이 들고 문서 수준 (document-level) 이며 환각 (hallucination) 에 취약하며, 이전 화이트박스 접근법은 접근할 수 없는 토크 확률 (token probabilities) 을 필요로 합니다.

우리는 LLM-XTM을 제안합니다. 이는 LLM 유도 주제 정교화 (LLM-guided topic refinement) 와 자기 일관성 불확실성 양적 (self-consistency uncertainty quantification) 을 통합하는 프레임워크로, 다국어 주제 모델의 블랙박스 (black-box), 안정적이고 확장 가능한 향상을 가능하게 합니다.

다국어 코퍼스 (multilingual corpora) 상의 실험에서 LLM-XTM 은 주제의 일관성과 정렬을 향상시키며 양국어 사전과 고가의 LLM 호출에 대한 의존도를 줄였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM-XTM: 대규모 언어 모델과 결합된 다국어 주제 모델 개선

요약

핵심 포인트

댓글