본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 25. 16:47

단문형 개방형 설문 응답에 대한 구조적 토픽 모델(STM)과 BERTopic의 비교 평가

요약

단문형 개방형 설문 응답 분석을 위해 확률론적 STM과 임베딩 기반 BERTopic의 성능을 비교 평가한 연구입니다. BERTopic이 토픽 일관성 면에서 우수하며, 맥락 증강 전략이 성능 향상에 가장 효과적임을 입증했습니다.

핵심 포인트

  • BERTopic이 STM보다 높은 토픽 일관성과 해석력을 제공함
  • 맥락 증강(Contextual Augmentation)이 성능 향상의 핵심 요소임
  • 고차원 임베딩 단독 사용은 데이터 손실 및 일관성 저하를 초래함
  • STM은 추론적 공변량 분석에, BERTopic은 기술적 분석에 강점이 있음

응용 심리학에서의 토픽 모델링 (Topic modeling)은 확률론적 Bag-of-words 모델과 최신 임베딩 기반 접근 방식이라는 두 가지 방법론적 전통으로 점점 더 확장되고 있습니다. 그러나 이러한 방법들에 대한 많은 평가가 더 길고 정제된 벤치마크 코퍼스 (benchmark corpora)에 의존하고 있어, 짧고 개방형인 설문 응답에 대한 지침은 부족한 실정입니다. 본 논문은 개방형 설문 응답을 분석하기 위해 확률론적 토픽 모델인 구조적 토픽 모델 (Structural Topic Models, STM)과 임베딩 기반 모델인 BERTopic을 비교합니다. 우리는 오타 교정, 어간 추출 (stemming), 임베딩 선택, 그리고 매우 짧은 응답에 추가적인 의미론적 맥락을 제공하기 위해 우리가 도입한 전략인 맥락 증강 (contextual augmentation)을 변화시키며 세 가지 STM 조건과 다섯 가지 BERTopic 조건을 평가했습니다. 결과에 따르면 BERTopic이 STM보다 일관되게 더 높은 토픽 일관성 (topic coherence)을 생성하였으며, 맥락 증강이 가장 강력한 성능 향상을 가져왔습니다. 반면, 고차원 임베딩 (higher-dimensional embeddings) 단독으로는 일관성을 개선하지 못했으며 더 큰 데이터 손실과 연관되었습니다. 질적 평가 결과, BERTopic은 더 해석 가능하고 안정적인 토픽을 생성한 반면, STM 토픽은 종종 더 넓고 혼합된 양상을 보였습니다. 그러나 STM은 추론적 공변량 분석 (inferential covariate analysis)에 더 강력한 지원을 제공하는 반면, BERTopic의 공변량 비교는 주로 기술적 (descriptive)입니다. 이러한 발견은 STM과 BERTopic이 상호 보완적인 강점을 제공함을 시사합니다. 우리는 응용 사회과학 연구에서 토픽 모델링 접근 방식을 선택하고 결합하기 위한 실질적인 지침을 제시하며 결론을 맺습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0