WARDEN: 6시간의 학습 데이터로 수행하는 멸종 위기 원주민 언어 전사 및 번역

본 논문은 호주의 멸종 위기 원주민 언어인 Wardaman을 영어로 전사(Transcription) 및 번역(Translation)할 수 있는 초기 언어 모델 시스템인 WARDEN을 소개합니다. 우리가 직면한 중대한 과제는 대규모 학습 데이터의 부족입니다. 실제로 우리는 단 6시간의 주석이 달린 오디오 데이터만을 보유하고 있습니다. 따라서 (영어에서 프랑스어로 하는 것과 같이) 대규모 데이터셋을 사용하여 전사와 번역을 위한 단일 모델을 학습시키는 것이 일반적인 관행이지만, Wardaman에서 영어로의 맥락에서는 이러한 방식이 더 이상 실행 가능하지 않습니다. 저자원(Low-resource) 문제를 해결하기 위해, 우리는 WARDEN이 별도의 전사 모델과 번역 모델을 갖도록 설계했습니다. WARDEN은 먼저 Wardaman 오디오 입력을 음소 전사(Phonemic transcription)로 변환한 다음, 해당 전사를 영어 번역으로 변환합니다. 나아가, 성능을 향상시키기 위한 두 가지 유용한 기술을 제안합니다. 전사를 위해, 우리는 Wardaman과 유사한 음소를 공유하는 언어인 Sundanese로부터 Wardaman 토큰을 초기화하여 전사 모델의 미세 조정(Fine-tuning)을 가속화합니다. 번역을 위해, 우리는 전문가의 주석으로부터 Wardaman-English 사전을 편찬하고, 이 도메인 특화 지식(Domain-specific knowledge)을 대규모 언어 모델(LLM)에 제공하여 최종 출력을 추론하고 결정하도록 합니다. 우리는 이러한 2단계 설계가 극도로 낮은 데이터 환경에서 데이터 집약적인 통합 방식(Unified approaches)보다 더 효과적임을 실증적으로 입증합니다. 단 6시간의 주석 데이터만을 사용하여, WARDEN은 더 큰 오픈 소스 및 독점 모델들을 능가하며 강력한 베이스라인(Baseline)을 구축합니다. 데이터와 코드는 공개되어 있습니다.

Insights

WARDEN: 6시간의 학습 데이터로 수행하는 멸종 위기 원주민 언어 전사 및 번역

요약

핵심 포인트

댓글

Thermo Fisher, 고객 활동 강화에 따라 2026년 매출 474억~481억 달러 및 조정 EPS 24.93~25.33달러 전망

자율 에이전트(Autonomous agents)는 쉬운 부분이다

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

Thermo Fisher, 고객 활동 강화에 따라 2026년 매출 474억~481억 달러 및 조정 EPS 24.93~25.33달러 전망

자율 에이전트(Autonomous agents)는 쉬운 부분이다

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.