본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 09. 11:50

유전자에서 토큰까지: 해석 가능한 문체론적 분석을 위한 GWAS 기반 접근 방식

요약

GWAS(전장 유전체 연관 분석) 방법론을 문체론적 분석에 도입하여, 특정 토큰과 저자성 사이의 연관성을 탐지하는 새로운 연구를 소개합니다. 로지스틱 회귀를 통해 영어, 독일어, 러시아어 코퍼스에서 통계적으로 유의미한 어휘적 마커를 식별할 수 있음을 입증했습니다.

핵심 포인트

  • GWAS 방법론을 활용한 해석 가능한 문체론적 분석법 제안
  • 로지스틱 회귀를 통한 토큰과 저자성 간의 연관성 테스트
  • 다국어(영어, 독일어, 러시아어) 코퍼스에서 어휘적 마커 탐지 성공
  • 다중 비교 교정을 적용한 통계적 유의성 확보

컴퓨터 과학 (Computer Science) > 계산 및 언어 (Computation and Language)

제목: 유전자에서 토큰까지: 해석 가능한 문체론적 분석을 위한 GWAS 기반 접근 방식

PDF 보기 초록: 이 짧은 논문은 전장 유전체 연관 분석 (GWAS, genome-wide association studies)에서 영감을 얻은 문체론적 (stylometric) 해석 방법을 소개합니다. 각 "유전자 (gene)" 토큰과 "표현형 (phenotype)" 저자성 사이의 연관성을 다중 비교 교정 (multiple-comparison correction)을 포함한 로지스틱 회귀 (logistic regression)를 사용하여 테스트합니다. 영어, 독일어, 러시아어 코퍼스 (corpora)에 적용했을 때, 이 방법은 개별 저자를 구별하는 통계적으로 유의미한 어휘적 마커 (lexical markers)를 탐지합니다.

서지 및 인용 도구

이 논문과 관련된 코드, 데이터 및 미디어

데모

추천 및 검색 도구

arXivLabs: 커뮤니티 협력자와 함께하는 실험적 프로젝트

arXivLabs는 협력자들이 우리 웹사이트에서 직접 새로운 arXiv 기능을 개발하고 공유할 수 있도록 하는 프레임워크입니다.

arXivLabs와 함께 활동하는 개인 및 조직은 개방성, 커뮤니티, 탁월함, 그리고 사용자 데이터 프라이버시라는 우리의 가치를 수용하고 받아들였습니다. arXiv는 이러한 가치에 전념하며, 이를 준수하는 파트너와만 협력합니다.

arXiv 커뮤니티에 가치를 더할 프로젝트 아이디어가 있습니까? arXivLabs에 대해 더 알아보기

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0