LLM은 룩셈부르크어가 무엇을 차용하는지 알고 있는가? 저자원 다국어 모델에서의 어휘적 신조어 탐색

대규모 언어 모델 (LLMs)은 소수 접촉 언어 (small contact languages)의 작문 보조 도구로 점점 더 많이 사용되고 있지만, 이 모델들이 어휘 차용 (lexical borrowing) 및 신조어 (neology)에 관한 커뮤니티 규범을 준수하는지는 불분명합니다. 우리는 대규모 룩셈부르크어 뉴스 코퍼스인 LuxBorrow에서 파생된 3,050개의 인스턴스로 구성된 토큰 수준 벤치마크인 LexNeo-Bench를 소개합니다. 여기서 대상 토큰은 고유어(native) 또는 프랑스어, 독일어, 영어 차용어로 라벨링되어 있습니다. 이 벤치마크를 사용하여, 우리는 두 가지 작업인 차용 유형 분류 (borrowing type classification)와 이진 어휘 혁신 프록시 (binary lexical-innovation proxy; 차용 대 고유어)에 대해 34가지 프롬프트 설정에서 세 가지 다국어 LLM을 조사합니다. 외부 문맥 없이 모델은 차용 분류에서 확률(chance)을 약간 상회하는 수준의 성능만을 보입니다. 따라서 우리는 공여 언어 (donor language), 형태론적 패턴 (morphological patterns), 어휘적 유사어 (lexical analogues)를 인코딩하는 언어 지식 그래프 (linguistic knowledge graph)를 구축하고, 인스턴스별 서브그래프 (subgraphs)를 프롬프트에 주입합니다. 지식 그래프 프롬프트는 차용 분류 정확도를 25~~35%에서 71~~81%까지 높이며, 소형 모델과 대형 모델 사이의 격차를 크게 좁히는 반면, 신조어 탐지 (neology detection)는 여전히 어렵고 퓨샷 (few-shot) 설계에 민감하게 반응하도록 남겨둡니다. 우리의 연구 결과는 어휘 인지 프롬프팅 (lexicon-aware prompting)이 저자원 접촉 언어에서 견고한 차용 판단을 내리는 데 매우 유익하며, 어휘 자원이 LLM 평가를 위한 구조화된 문맥 (structured context) 역할을 할 수 있음을 보여줍니다. 본 연구는 ENEOLI COST Action 내에서 수행되었으며, 다국어 룩셈부르크어 데이터에서 어휘 혁신의 한 형태로서의 차용을 조사합니다.

Insights

LLM은 룩셈부르크어가 무엇을 차용하는지 알고 있는가? 저자원 다국어 모델에서의 어휘적 신조어 탐색

요약

핵심 포인트

댓글

중국이 답이었다 — 테슬라 6월 판매 8만9091대 올해 최고, 모델Y 현지 1위 | 7/8 테슬라 브리핑

짐 크레이머, 강세장 재도래의 큰 위험은 이란 전쟁이 아니다

AI 비디오에 대한 일반적인 인식과 Reactor의 더 큰 방향성

HF Viewer에 수많은 새로운 기능이 추가되었습니다!

짐 크레이머, 강세장 재도래의 큰 위험은 이란 전쟁이 아니다

AI 비디오에 대한 일반적인 인식과 Reactor의 더 큰 방향성

HF Viewer에 수많은 새로운 기능이 추가되었습니다!