arXiv논문2026. 05. 15. 16:10

우크라이나 법률 텍스트에 대한 파운데이션 모델(Foundation Models)의 토크나이저 비옥도(Tokenizer Fertility) 및

요약

본 연구는 우크라이나 법률 텍스트를 처리하는 다양한 파운데이션 모델들의 토큰화 효율성과 성능을 비교 분석했습니다. 273개의 실제 판결문 데이터를 사용하여 5개 제공업체의 7개 모델을 벤치마킹한 결과, 모델 간 토크나이저 비옥도에 최대 1.6배의 큰 차이가 있으며 이는 API 비용 증가로 직결됩니다. 또한, NVIDIA Nemotron Super 3 (120B)가 높은 종합 점수를 기록하며 Mistral Large 3를 능가했으나, 가장 중요한 실무적 제언으로 형태론적으로 풍부한 언어에서는 Few-shot prompting보다 Zero-shot이 더 신뢰할 수 있는 기본 설정임을 제시했습니다.

핵심 포인트

모델 선택 시 토크나이저 비옥도 분석이 필수적이며, 이는 API 비용에 직접적인 영향을 미친다.
NVIDIA Nemotron Super 3 (120B)가 높은 종합 성능과 낮은 API 비용을 동시에 달성하여 우수한 효율성을 보였다.
Mistral Large 3는 거대한 파라미터 규모에도 불구하고, NVIDIA Nemotron Super 3에 비해 상대적으로 비효율적일 수 있다.
우크라이나어와 같은 형태론적으로 풍부한 언어에서는 Few-shot prompting보다 Zero-shot prompting이 더 안정적인 기본 설정이다.

파운데이션 모델(Foundation models)은 우크라이나 법률 텍스트를 처리할 때 매우 상이한 효율성으로 토큰화(tokenize)를 수행하지만, 이 도메인에 대한 체계적인 비교 연구는 존재하지 않습니다. 본 연구에서는 우크라이나 국가 등록소(EDRSR)에서 검증된 273개의 법원 판결문을 사용하여 5개 제공업체의 7개 모델을 벤치마킹하였으며, 토크나이저 비옥도(tokenizer fertility)와 세 가지 작업에 대한 제로샷 성능(zero-shot performance)을 측정했습니다. 세 가지 결과가 도출되었습니다. (1) 토크나이저 비옥도(Tokenizer fertility)는 1.6배 차이가 납니다. 동일한 입력에 대해 Qwen3 모델은 Llama 계열 모델보다 60% 더 많은 토큰을 소비하며, 이는 API 비용을 직접적으로 증가시킵니다. (2) NVIDIA Nemotron Super 3 (120B)는 가장 높은 종합 점수(83.1)를 기록하며 Mistral Large 3 (총 675B, 활성 41B)를 능가했습니다. Mistral Large 3는 총 파라미터 수는 5.6배, 토큰당 활성 파라미터 수는 3.4배 더 많음에도 불구하고, NVIDIA Nemotron Super 3는 API 비용이 3분의 1 수준입니다. (3) 퓨샷 프롬프팅(Few-shot prompting)은 성능을 최대 26%포인트 저하시킵니다. 층화 및 프롬프트 민감도 제거 실험(stratified and prompt-sensitivity ablations)을 통해 이것이 예시 선택의 결과가 아니라 우크라이나어 예시 자체의 고유한 특성임을 확인했습니다. 실무자를 위한 제언: 모델 선택에 앞서 토크나이저 분석이 선행되어야 하며, 형태론적으로 풍부한 언어(morphologically rich languages)의 경우 퓨샷(few-shot)보다 제로샷(zero-shot)이 더 신뢰할 수 있는 기본 설정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

우크라이나 법률 텍스트에 대한 파운데이션 모델(Foundation Models)의 토크나이저 비옥도(Tokenizer Fertility) 및

요약

핵심 포인트

댓글