arXiv논문2026. 06. 24. 11:37

CANDLE: 경량 인코더를 이용한 문자 단위 아랍어 노이즈 중복 제거

요약

CANDLE은 CTC(Connectionist Temporal Classification)를 활용하여 아랍어 텍스트의 문자 중복 노이즈를 제거하는 경량 인코더 시스템입니다. 기존 방식보다 낮은 문장 오류율을 기록했으며, 지식 증류를 통해 추론 효율성을 높였습니다. 또한 LLM 토크나이저의 비옥도를 낮춰 추론 비용 절감 효과를 입증했습니다.

핵심 포인트

CTC를 시퀀스 정렬 문제로 프레임화하여 문자 중복 제거 수행
지식 증류를 통해 모델 깊이를 3배 줄여 추론 오버헤드 감소
LLM 토크나이저 비옥도를 최대 12.8% 감소시켜 컨텍스트 효율 개선
신문, 소셜 미디어 등 다양한 벤치마크에서 베이스라인 능가

텍스트에서 반복되는 문자를 처리하는 것은 까다로울 수 있는데, 이는 해당 문자가 단어의 올바른 철자를 나타낼 수도 있고 소셜 미디어 게시물에서 흔히 보이는 비공식적인 문자 연장(elongation)을 나타낼 수도 있기 때문입니다. 우리는 수작업으로 만든 규칙, 사전 또는 형태소 분석기(morphological analyzers)에 의존하지 않고 이 문제를 해결하는 문자 단위 아랍어 노이즈 중복 제거를 위한 경량 시스템인 CANDLE을 제시합니다. CANDLE의 핵심은 이 작업에 Connectionist Temporal Classification (CTC)을 새롭게 적용한 것으로, 이는 문자 기반 인코더 상에서의 시퀀스 정렬(sequence alignment) 문제로 정규화(normalization)를 프레임화하며, 문자 중복 제거를 위해 이전에 탐구된 적 없는 공식화 방식입니다. 깨끗한 신문 기사, 수동으로 선별된 모호한 사례, 실제 소셜 미디어 텍스트를 아우르는 세 가지 벤치마크에서 평가했을 때, CTC 모델은 $5.37%$만큼 낮은 문장 오류율 (Sentence Error Rate (SER))을 달성하였으며 분류 기반 베이스라인(classification-based baseline)을 큰 차이로 지속적으로 능가했습니다. 추론 오버헤드(inference overhead)를 줄이기 위해, 우리는 6개 층(layer)의 CTC 모델을 2개 층의 학생(student) 모델로 증류(distill)하여, 성능 저하를 최소화하면서 $3\times$의 깊이 감소를 달성했습니다. 중복 제거 정확도를 넘어, 정규화는 실질적인 다운스트림(downstream) 이점을 제공합니다. 즉, 다양한 아랍어 LLM 토크나이저(tokenizer) 전반에 걸쳐 토크나이저 비옥도(tokenizer fertility)를 최대 $12.8%$ 상대적으로 감소시켜, 추론 비용을 직접적으로 낮추고 컨텍스트 창(context window) 활용도를 개선합니다. 우리는 재현성을 지원하고 향후 연구를 발전시키기 위해 모든 코드와 모델을 공개적으로 배포합니다\footnote{https://github.com/abjadai/candle}.

AI 자동 생성 콘텐츠

원문 바로가기

CANDLE: 경량 인코더를 이용한 문자 단위 아랍어 노이즈 중복 제거

요약

핵심 포인트

댓글