TextEconomizer: 디노이징 Transformer와 엔트로피 코딩을 통한 손실 압축 텍스트 성능 향상
요약
TextEconomizer는 디노이징 Transformer와 엔트로피 코딩을 결합하여 텍스트의 핵심 의미를 보존하면서 크기를 획기적으로 줄이는 손실 압축 모델입니다. 기존 모델 대비 훨씬 적은 파라미터로도 높은 압축률과 뛰어난 텍스트 품질을 동시에 달성했습니다.
핵심 포인트
- 엔트로피 코딩을 통한 5.39배의 압축률 달성
- 기존 유사 모델 대비 약 153배 적은 파라미터 사용
- BLEU, ROUGE 등 주요 지표에서 높은 품질 유지
- 메모리 효율성과 고충실도 출력 간의 최적 균형 확보
손실 압축 텍스트 (Lossy text compression)는 핵심 의미를 보존하면서 데이터 크기를 줄여주므로, 요약, 자동 분석 및 디지털 아카이브에 매우 적합합니다. 언어 모델링에서 Transformer 기반 모델이 지배적임에도 불구하고, 문맥 벡터 (context vectors)와 엔트로피 코딩 (entropy coding)을 시퀀스 투 시퀀스 (Sequence-to-Sequence, Seq2Seq) 생성에 통합하는 연구는 여전히 미진한 상태입니다. 주요 과제는 인코더 출력에서 가장 정보가 많은 문맥 벡터를 식별하고, 노이즈가 있는 텍스트 환경에서도 고품질 출력을 유지하면서 저장 효율성을 높이기 위해 엔트로피 코딩을 통합하는 데 있습니다. 본 논문에서는 데이터셋 차원에 대한 사전 지식 없이 가변 크기의 입력을 50%에서 80%까지 줄이는 Transformer 신경망과 결합된 인코더-디코더 프레임워크인 TextEconomizer를 소개합니다. 우리의 모델은 엔트로피 코딩을 통해 경쟁력 있는 압축률을 달성하는 동시에, BLEU, ROUGE, METEOR 및 의미론적 유사도 (semantic similarity) 점수로 평가했을 때 완벽에 가까운 텍스트 품질을 제공합니다. TextEconomizer는 유사한 모델보다 약 153배 적은 파라미터로 작동하며, 의미론적 품질을 희생하지 않고 5.39배의 압축률을 달성합니다. 또한 우리는 196배 적은 파라미터로 최첨단(state-of-the-art)인 67배의 압축률을 달성한 LSTM 기반 오토인코더 (autoencoder)와, ICAE보다 263배 적은 파라미터를 사용하면서도 경쟁력 있는 텍스트 품질을 유지하는 수정된 Transformer인 LLaMAFormer를 함께 평가합니다. TextEconomizer는 메모리 효율성과 고충실도 (high-fidelity) 출력 사이의 균형을 맞추는 데 있어 기존의 Transformer 기반 모델을 크게 능가하며, 최적의 공간 활용을 통한 손실 압축의 돌파구를 마련했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기