arXiv논문2026. 06. 09. 10:44

엔그램의 텐서화: LLM에서 N-Gram 임베딩 간 잠재 변수 공유의 이점

요약

기존 Engram 방식의 해시 충돌과 메모리 비효율 문제를 해결하기 위해 텐서화된 n-gram 임베딩인 TN-gram을 제안합니다. CP 분해를 통해 n-gram 차수 간 잠재 구조를 공유함으로써 매개변수를 획기적으로 줄이면서도 높은 성능을 유지합니다.

핵심 포인트

기존 n-gram 방식의 해시 충돌 및 메모리 중복 문제 해결
CP 형태의 공유 인자를 활용한 텐서화된 n-gram 임베딩 제안
차수 흡수 벡터를 통한 효율적인 다중 토큰 패턴 인코딩
매개변수 수를 대폭 절감하면서도 기존 방식 대비 우수한 성능 입증

현대의 언어 모델(Language Models)은 텍스트를 이산적인 토큰 수준 임베딩(token-level embeddings)을 사용하여 표현하며, 이는 반복되는 다중 토큰 패턴이 Transformer 레이어 전반에 걸쳐 암시적으로 학습되도록 강제합니다. Over-tokenized Transformers와 Engram은 모두 다중 토큰(n-gram) 메모리를 명시적으로 통합함으로써 이러한 한계를 해결하려고 시도합니다. 그러나 이들은 각 n-gram 차수(order)마다 별도의 해시 테이블(hash tables)에 의존하며, 이는 해시 충돌(hash collisions)을 유발하고 중첩된 n-gram이 기저의 잠재 구조(latent structures)를 공유하는 것을 방해합니다. 이러한 문제를 해결하기 위해, 우리는 Canonical Polyadic (CP) 형태의 공유 인자(shared factors)를 통해 텐서화된 n-gram 임베딩을 표현하는 컴팩트한 메모리 모듈인 Tensorized Engram (TN-gram)을 제안합니다. TN-gram은 서로 다른 n-gram 차수의 임베딩을 인코딩하기 위해 차수 흡수 벡터(order-absorption vectors)와 함께 공유된 토큰-위치 인자(token-position factors)를 학습합니다. 종합적인 실험을 통해 TN-gram은 훨씬 적은 매개변수(parameters)를 사용하면서도 Engram 방식의 n-gram 모듈과 대등하거나 심지어 능가하는 성능을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

엔그램의 텐서화: LLM에서 N-Gram 임베딩 간 잠재 변수 공유의 이점

요약

핵심 포인트

댓글