계산 사회 과학 및 인문학을 위한 책임감 있고 인식론적 근거를 갖춘 다국어 LLM을 향하여
요약
본 논문은 다국어 LLM을 사회 과학 및 인문학 연구를 위한 해석학적 도구로 재개념화하며, 기존 NLP 벤치마크의 한계를 극복하기 위한 새로운 평가 프레임워크를 제안합니다. 문화적 정렬과 교차 언어적 안정성을 포함한 이론적 근거를 바탕으로 책임감 있는 LLM 통합 방법론을 다룹니다.
핵심 포인트
- 기존 태스크 기반 NLP 벤치마크의 한계 지적
- 사회 과학 및 인문학을 위한 새로운 평가 프레임워크 개발
- 문화적 정렬 및 교차 언어적 안정성 지표 제안
- 다국어 정치 담론 분석을 통한 프레임워크 검증
대규모 언어 모델 (Large language models, LLMs)은 다국어 능력과 추론 능력 면에서 급격히 발전하며, 사회 과학 및 인문학 연구 워크플로우로의 통합을 가능하게 했습니다. 그러나 기존의 평가 패러다임은 여전히 태스크 기반의 자연어 처리 (NLP) 벤치마크에 고착되어 있으며, 해석적 타당성 (interpretive validity), 문화적 상황성 (cultural situatedness), 그리고 인식론적 매개 (epistemic mediation) 문제를 해결하지 못하고 있습니다. 본 논문은 다국어 추론 LLM을 언어적 및 문화적 맥락 전반에 걸쳐 의미 생성을 능동적으로 구조화하는 해석학적 도구 (hermeneutic instruments)로 재개념화합니다. 해석학 (hermeneutics), 기술 철학 (philosophy of technology), 과학 기술학 (science and technology studies), 다국어 NLP 연구, 그리고 계산 사회 과학 (computational social science) 방법론을 바탕으로, 우리는 사회 과학 및 인문학 (Social Sciences and Humanities, SSH) 연구에서 다국어 추론을 평가하기 위한 이론적 근거를 갖춘 프레임워크를 개발합니다. 우리는 문화적 정렬 (cultural alignment), 교차 언어적 안정성 (cross-lingual stability), 추론 충실도 (reasoning faithfulness)를 위한 조작화된 지표와 함께, 해석적 연구 과제에 맞춤화된 투명성 요구 사항을 포함하는 엄격한 실험 프로토콜을 명시합니다. 우리는 다국어 정치 담론 분석을 포함하는 구체적인 적용 시나리오를 통해 이 프레임워크를 입증합니다. 본 논문은 다국어 추론 LLM을 계산 사회 과학 인프라에 책임감 있게 통합하기 위한 개념적 및 방법론적 토대를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기