최소 편집(Minimal-Edit) 우크라이나어 문법 오류 교정(GEC)을 위한 프롬프팅은 어디까지 가능한가?
요약
본 연구는 상용 및 오픈 소스 LLM을 활용하여 우크라이나어 문법 오류 교정(GEC) 성능을 평가합니다. 제로샷, 퓨샷, 프롬프트 최적화 전략을 비교한 결과, 최소 편집 프롬프트와 LLM 지원 최적화 조합이 가장 우수한 성능을 보였습니다.
핵심 포인트
- 11개 상용 LLM과 1개 오픈 소스 모델의 우크라이나어 GEC 성능 비교
- 최소 편집 프롬프트와 LLM 지원 최적화 조합이 최적의 성능 달성
- Gemini 3.1-Pro가 SOTA 모델과의 격차를 90% 이상 단축
- 우크라이나어 특유의 5가지 과잉 교정(overcorrection) 패턴 식별
미세 조정된 대규모 언어 모델(LLMs)은 우크라이나어 문법 오류 교정(Grammatical Error Correction, GEC) 분야를 주도하고 있는 반면, API로 접근 가능한 LLM들은 최소 편집(minimal-edit) 벤치마크에서 거의 테스트되지 않은 상태로 남아 있습니다. 본 연구에서는 4개의 제공업체로부터 선정된 11개의 상용 LLM과 1개의 오픈 소스 우크라이나어 모델을 UNLP 2023 GEC-only 벤치마크를 통해 평가하며, 제로샷(zero-shot), 퓨샷(few-shot), 최소 편집(minimal-edits), 그리고 LLM 지원 프롬프트 최적화(LLM-assisted prompt optimization) 전략을 비교합니다. 우리의 최적 설정(Gemini 3.1-Pro)은 F0.5=69.22에 도달하여, 미세 조정된 SOTA(State-of-the-Art, F0.5=73.14)와의 격차를 90% 이상 좁혔습니다. 제로샷 프롬프트의 경우, Claude 모델만이 우크라이나어 지시문(instructions)으로부터 이득을 얻었습니다. 그러나 모든 모델에 대해 전반적으로 가장 좋은 결과는 우크라이나어 최소 편집 프롬프트를 사용하는 것이었으며, 이러한 언어 특화 규칙은 우크라이나어로 정확하게 표현할 것을 요구합니다. 최소 편집 + 퓨샷(few-shot) 위에 LLM 지원 프롬프트 최적화를 적용했을 때 가장 높은 점수를 달성했습니다. 상세한 최소 편집 지시문은 문장 부호 및 격(case) 오류에서 가장 큰 이득을 가져왔으나, 모델이 여러 저빈도 범주를 포기하게 만드는 원인이 되기도 했습니다. 오류 분석을 심층적으로 수행하여, 우리는 우크라이나어 특유의 언어적 현상과 관련된 5가지의 반복적인 과잉 교정(overcorrection) 패턴을 식별했습니다. 코드, 프롬프트 및 출력 결과는 공개적으로 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기