Google, Transformer 시대를 끝낼 수도 있는 논문 발표

Google이 Transformer 시대를 끝낼 수도 있는 논문을 발표했습니다.

지난 7년 동안 ChatGPT, Claude, Gemini와 같은 모든 주요 AI는 정확히 동일한 아키텍처(Architecture)인 Transformer를 기반으로 구축되어 왔습니다.

하지만 Transformer에는 치명적인 결함이 있습니다.

문맥(Context)을 기억하기 위해, 모든 단어를 다른 모든 단어와 대조하여 처리해야 합니다. 이를 이차 복잡도(Quadratic complexity)라고 부릅니다. 프롬프트(Prompt)가 길어질수록 연산 비용(Compute cost)이 폭발적으로 증가합니다.

그 대안은 구식인 RNN (Recurrent Neural Network, 순환 신경망)입니다. RNN은 믿을 수 없을 정도로 저렴하고 빠르지만, 메모리 크기가 고정되어 있습니다. 긴 문서를 입력하면 기억 상실증에 걸립니다.

오늘 전까지는 말이죠.

Google 연구진이 'Memory Caching: RNNs with Growing Memory (메모리 캐싱: 메모리가 확장되는 RNN)'라는 논문을 발표했습니다.

그리고 이것은 AI의 가장 큰 병목 현상(Bottleneck)을 해결합니다.

RNN이 끊임없이 스스로를 덮어쓰는 고정되고 경직된 메모리를 갖는 대신, Google은 RNN에 "저장" 버튼을 달아주었습니다.

이 기술은 RNN이 읽어 들이는 동안 자신의 은닉 상태(Hidden states)의 체크포인트(Checkpoints)를 캐시(Cache)할 수 있게 해줍니다.

이제 RNN의 메모리 용량은 시퀀스(Sequence)가 길어짐에 따라 동적으로 확장될 수 있습니다.

그들은 AI가 어떤 체크포인트가 가장 중요한지 능동적으로 선택하는 희소 선택 메커니즘(Sparse selective mechanisms)을 포함하여 네 가지의 서로 다른 변형 모델을 구축했습니다.

결과는 효율성의 규칙을 새로 쓰고 있습니다.

긴 문맥 이해 및 회상 집약적(Recall-intensive) 작업에서, 이 새로운 Memory-Cached RNN들은 Transformer와의 격차를 좁혔습니다.

이들은 폭발적인 이차 연산 비용 없이도 경쟁력 있는 정확도를 달성했습니다. 이는 RNN의 저렴한 효율성과 Transformer의 거대한 능력 사이의 간극을 완벽하게 메워줍니다.

우리는 AI가 긴 대화를 기억할 수 있는 유일한 방법이 Transformer라고 생각했기 때문에, 이를 확장(Scaling)하는 데 수십억 달러를 소비해 왔습니다.

하지만 Google은 매번 전체 이력을 처리할 필요가 없다는 것을 방금 증명했습니다.

우리에게 필요했던 것은 단지 더 스마트한 캐시(Cache)였습니다.

Insights