일본어 저자성 가능도비(Likelihood Ratios) 추정을 위한 문체론적 시스템과 임베딩 시스템의 결합
요약
일본어 텍스트의 저자성 식별을 위해 문체론적 특징과 임베딩 시스템을 결합한 가능도비(Likelihood Ratio) 프레임워크 연구를 소개합니다. 이 결합 모델은 일본어 디지털 텍스트 환경에서 판별력을 향상시키고 로그 가능도비 비용을 낮추는 성과를 보였습니다.
핵심 포인트
- 일본어 텍스트에 가능도비 기반 법과학적 분석을 적용한 최초의 연구
- 문체론적 특징과 문맥 임베딩 시스템의 결합을 통한 성능 향상
- 결합 모델이 사실 일치 가능도비는 높이고 반대 가능도비는 낮춤
- 이질적인 시스템 결합이 일본어 저자 식별의 판별력을 개선함
가능도비 (Likelihood ratio) 프레임워크는 법과학 전반에 걸쳐 증거 분석을 위한 논리적이고 법적으로 타당한 기초로 널리 인정받고 있으며, 텍스트 증거의 저자성 (Authorship) 분석에서도 그 중요성이 점점 더 인정받고 있습니다. 그러나 현재까지 그 적용은 영어 텍스트에 국한되어 왔습니다. 한편, 저자 식별 (Authorship attribution)은 전통적으로 다양한 문체론적 특징 (Stylometric features)에 의존해 왔으며, 사전 학습된 대규모 언어 모델 (Large language models)의 부상으로 새로운 문맥 임베딩 (Contextual-embedding) 접근 방식이 가능해졌습니다. 이러한 다양한 접근 방식을 결합(Fusion)하는 것은 성능 향상을 약속하지만, 가능도비 패러다임 내에서 문체론적 특징 시스템과 임베딩 기반 시스템을 통합하는 데에는 아직 적용되지 않았습니다. 본 연구는 블로그에서 추출한 약 1,000자 분량의 발췌문을 사용하여 일본어 디지털 텍스트에 가능도비 기반의 법과학적 텍스트 비교를 적용한 최초의 연구로, 1) 시스템 성능과 가능도비 크기를 평가하고 2) 문체론적 특징 시스템과 임베딩 기반 시스템을 결합했을 때의 영향을 평가합니다. 연구 결과, 결합된 시스템은 우수한 교정 (Calibration) 상태를 유지하면서도 1) 사실과 일치하는 (Consistent-with-fact) 가능도비 크기를 증가시키고, 2) 사실과 반대되는 (Contrary-to-fact) 가능도비 크기를 감소시키며, 3) 전반적인 판별력 (Discriminability)을 향상시키는 것으로 나타났습니다. 가장 성능이 뛰어난 결합 모델은 0.32484의 로그 가능도비 비용 (Log-likelihood-ratio cost)을 달성하였으며, 이는 일본어에 대한 가능도비 프레임워크의 타당성과 이질적인 시스템 간 결합의 이점을 모두 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기