본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 09. 10:44

엔그램의 텐서화: LLM에서 N-Gram 임베딩 간 잠재 변수 공유의 이점

요약

기존 Engram 방식의 해시 충돌과 메모리 비효율 문제를 해결하기 위해 텐서화된 n-gram 임베딩인 TN-gram을 제안합니다. CP 분해를 통해 n-gram 차수 간 잠재 구조를 공유함으로써 매개변수를 획기적으로 줄이면서도 높은 성능을 유지합니다.

핵심 포인트

  • 기존 n-gram 방식의 해시 충돌 및 메모리 중복 문제 해결
  • CP 형태의 공유 인자를 활용한 텐서화된 n-gram 임베딩 제안
  • 차수 흡수 벡터를 통한 효율적인 다중 토큰 패턴 인코딩
  • 매개변수 수를 대폭 절감하면서도 기존 방식 대비 우수한 성능 입증

현대의 언어 모델(Language Models)은 텍스트를 이산적인 토큰 수준 임베딩(token-level embeddings)을 사용하여 표현하며, 이는 반복되는 다중 토큰 패턴이 Transformer 레이어 전반에 걸쳐 암시적으로 학습되도록 강제합니다. Over-tokenized Transformers와 Engram은 모두 다중 토큰(n-gram) 메모리를 명시적으로 통합함으로써 이러한 한계를 해결하려고 시도합니다. 그러나 이들은 각 n-gram 차수(order)마다 별도의 해시 테이블(hash tables)에 의존하며, 이는 해시 충돌(hash collisions)을 유발하고 중첩된 n-gram이 기저의 잠재 구조(latent structures)를 공유하는 것을 방해합니다. 이러한 문제를 해결하기 위해, 우리는 Canonical Polyadic (CP) 형태의 공유 인자(shared factors)를 통해 텐서화된 n-gram 임베딩을 표현하는 컴팩트한 메모리 모듈인 Tensorized Engram (TN-gram)을 제안합니다. TN-gram은 서로 다른 n-gram 차수의 임베딩을 인코딩하기 위해 차수 흡수 벡터(order-absorption vectors)와 함께 공유된 토큰-위치 인자(token-position factors)를 학습합니다. 종합적인 실험을 통해 TN-gram은 훨씬 적은 매개변수(parameters)를 사용하면서도 Engram 방식의 n-gram 모듈과 대등하거나 심지어 능가하는 성능을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0