arXiv논문2026. 06. 29. 11:01

MultiHashFormer: 해시 기반 생성 언어 모델 (Hash-based Generative Language Models)

요약

MultiHashFormer는 해시 기반 자기회귀를 통해 임베딩 행렬의 파라미터 효율성을 높인 새로운 언어 모델 프레임워크입니다. 여러 해시 함수를 사용해 토큰을 고유한 해시 시그니처로 표현함으로써 기존의 충돌 문제를 해결하고 성능을 개선했습니다.

핵심 포인트

해시 시그니처를 활용한 파라미터 효율적 임베딩 방식 제안
다대일 충돌 문제를 해결하여 인과적 언어 모델 적용 가능
100M~3B 규모 모델 실험 결과 표준 Transformer 모델 능가
추가 수정 없이 다국어 어휘 확장이 가능한 유연성 확보

언어 모델 (LMs)은 어휘 사전 크기에 따라 선형적으로 확장되는 임베딩 행렬을 사용하여 토큰을 표현합니다. 파라미터 점유율 (parameter footprint)을 제한하기 위해, 이전 연구들은 인코더 전용 (encoder-only) 모델 내에서 많은 토큰을 하나의 벡터로 해싱하는 방식을 제안했습니다. 이는 파라미터 효율성을 제공하지만, 다대일 충돌 (many-to-one collisions) 문제로 인해 인과적 언어 모델 (causal LMs)에서의 사용이 제한됩니다. 본 논문에서는 해시 기반 자기회귀 (hash-based autoregression)를 가능하게 하는 새로운 프레임워크인 MultiHashFormer를 제안합니다. 각 토큰은 여러 개의 독립적인 해시 함수에 의해 생성된 이산 해시 ID (discrete hash IDs)의 짧은 시퀀스인 고유한 해시 시그니처 (hash signature)로 표현됩니다. 해시 인코더 (Hash Encoder)는 이 시그니처를 Transformer 디코더 (Transformer decoder)가 처리할 수 있도록 하나의 잠재 벡터 (latent vector)로 압축합니다. 그 후, 해시 디코더 (Hash Decoder)는 다음 토큰의 해시 시그니처를 생성하며, 이는 다시 텍스트로 매핑됩니다. 우리는 100M, 1B 및 3B 파라미터 규모에서 우리의 접근 방식을 평가하였으며, MultiHashFormer가 여러 벤치마크에서 표준 Transformer LMs를 일관되게 능가함을 입증했습니다. 나아가, 우리 모델은 어떠한 수정 없이도 일정한 파라미터 점유율을 유지하며 다국어 어휘 확장 (multilingual vocabulary expansion)을 처리할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

MultiHashFormer: 해시 기반 생성 언어 모델 (Hash-based Generative Language Models)

요약

핵심 포인트

댓글