본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 31. 22:53

Manifest AI 공동 창립자 Jacob이 말하는 Transformer의 한계와 Power Retention 제안

요약

Transformer 아키텍처의 컨텍스트 윈도우 확장 시 발생하는 이차 함수적 비용 문제를 분석합니다. 이를 해결하기 위해 RNN의 선형적 효율성과 Attention의 병렬 연산 능력을 결합한 Power Retention(멱차 보존) 아키텍처를 제안합니다.

핵심 포인트

  • Transformer의 입력 확장 비용은 토큰 수에 따라 이차 함수적으로 증가함
  • 긴 컨텍스트 지원 모델들은 실제로는 희소 어텐션 등의 절충안을 사용함
  • Power Retention은 RNN과 Attention의 이중성을 활용한 대안임
  • 청크 기반 정식화를 통해 GPU 연산 효율과 선형적 비용을 동시에 달성

Eye on AI의 인터뷰 영상은 왜 Transformer 아키텍처가 AI의 미래를 감당할 수 없는지 심도 있게 탐구하며, **Power Retention (멱차 보존 메커니즘)**이라 불리는 새로운 아키텍처 솔루션을 상세히 소개합니다 .

인터뷰 대상자는 Jacob (Manifest AI의 공동 창립자, 카네기 멜런 대학교 컴퓨터 학사, Mila 연구소 AI 박사)입니다.

다음은 영상 내용의 매우 상세한 분석입니다 (타임스탬프 인덱스 포함):

1. 현재 Transformer 아키텍처의 핵심 병목 현상: 긴 텍스트의 이차 함수적 비용

  • 파라미터 확장과 입력 확장의 괴리 oxed{05:18}:

    • 파라미터 확장 (Parameter Scaling) 비용은 파라미터 수에 따라 **선형적으로 증가 (Linear Growth)**하며, 이는 매우 건강한 상태이며 대규모 모델을 오늘날까지 이끌어온 핵심 동력입니다.
    • **입력 확장 (Input Scaling, 즉 컨텍스트 윈도우 Context Window)**은 Transformer의 악몽입니다. 모든 토큰(Token)이 다른 모든 토큰과 상관관계를 계산해야 하기 때문에, 계산 및 훈련 비용이 이차 함수적 (Quadratic)으로 증가합니다.
  • "긴 텍스트"의 업계 기만과 암묵적 규칙 oxed{31:20}:

    • 실제 Transformer로 긴 텍스트를 훈련하는 것은 극도로 비용이 많이 들기 때문에, 시장에서 100만 토큰을 지원한다고 주장하는 대규모 모델들은 실제로는 윈도우 Transformer (Windowed), 희소 어텐션 (Sparse Attention) 또는 하이브리드 어텐션 (Hybrid Attention) (즉, 소수의 레이어만 전역 어텐션을 사용하고 나머지는 로컬 윈도우를 사용하는 방식)과 같은 "눈속임" 절충안을 사용합니다.

    • 이로 인해 모델은 긴 텍스트 내에서 어텐션 "사각지대" (Hot spots 및 Dry patches)를 갖게 되며, 훈련 시간의 90%가 짧은 텍스트를 처리하는 데 사용되기 때문에 oxed{32:46}, 모델의 성능은 32k를 초과하면 심각하게 저하됩니다 oxed{33:44}.

2. 해결사: Power Retention (멱차 보존) 아키텍처

  • 전통적인 순환 신경망 (RNN) 및 Mamba에 대한 고찰 [07:53]:

  • Mamba, Mamba 2 및 기타 sub-quadratic (아차수) 아키텍처는 본질적으로 Retention (보존) 모델에 속합니다. 이들은 **이중성 (Duality)**을 가지고 있습니다. 즉, RNN (순환) 형태로도 쓸 수 있고, Attention (주의) 형태로도 쓸 수 있습니다.

  • 이는 세 번째 형태인 Chunked Formulation (청크 기반 정식화) [[01:18, 08:17]]를 가능하게 합니다. 이는 RNN이 긴 텍스트를 처리할 때 비용이 선형적으로 증가하는 장점을 가지면서도, Attention처럼 GPU의 행렬 곱셈 연산 능력을 포화 상태까지 끌어올릴 수 있게 합니다 (전통적인 LSTM은 이를 수행할 수 없습니다).

  • 치명적인 결함 [[09:08]]: Mamba와 같은 아키텍처의 상태 크기 (State Size)가 가중치 (Weights)에 비해 너무 작습니다. 반면 Transformer의 KV Cache는 실제로는 거대한 "암시적 상태 (Implicit State)" [[09:41]]입니다. 상태 크기 또한 확장 법칙 (Scaling Laws)을 따르기 때문에, 상태가 너무 작은 Mamba는 긴 텍스트에서의 성능이 Transformer에 훨씬 못 미칩니다.

  • Power Retention의 핵심 장점: "조절 레버가 하나 더 생김" [[11:06]]:

  • "Power (멱차)"는 "대칭 멱 (Symmetric Power)"이라 불리는 수학적 연산을 의미합니다 [[15:06]].

  • 이는 모델 파라미터 수를 늘리지 않고도 상태 크기 (State Size)를 무한히 확장할 수 있게 해주며, GPU 친화적입니다.

  • 즉, 개발자가 상태 크기를 독립적으로 조절할 수 있음을 의미하며, 모든 계산 예산 하에서 연산 최적화 (Compute Optimal) [[11:46]] 상태에 도달할 수 있습니다.

3. "탈바꿈" 기술 (Metamorphosis) 및 오픈 소스 모델

  • 한 줄의 코드로 Transformer 교체 [18:45, 20:58]:

  • Manifest AI는 "탈바꿈(Metamorphosis)" 방법을 제안했습니다. 처음부터 다시 학습할 필요 없이, 오픈 소스 Transformer 모델(예: Llama 70B) [20:22]을 가져와서 아키텍처 코드 내의 Attention 호출을 삭제하고 Power Retention 호출로 교체하는 방식입니다.

  • Retraining (재학습) [21:27]: 수십 대의 GPU를 사용하여 몇 시간(예: 6시간) 동안 학습하면, 모델 성능을 기존 Transformer 수준으로 회복할 수 있습니다. 하지만 그 이후부터는 저비용, 고유연성의 Power Retention 모델이 됩니다.

  • PowerCoder 모델 [18:32]:

  • 개념 증명(Proof of Concept)으로서, 그들은 3B(30억) 파라미터 규모의 프로그래밍 어시스턴트인 PowerCoder를 출시했습니다.

  • 현재 이 모델과 가중치(Weights)는 Hugging Face에 오픈 소스로 공개되어 있으며 [19:38], Flash Attention의 빠른 구현을 포함한 기반 기술 툴킷도 GitHub에 오픈 소스로 공개되어 있습니다 (pip install retention을 통해 설치 가능) [55:00].

4. 인식의 전환: 지식은 "가중치"가 아닌 "상태(Context)"에 존재해야 한다

  • "치명적 망각(Catastrophic Forgetting)"에 대한 새로운 시각 [22:11, 38:14]:

  • Jacob은 학계에서 현재 골머리를 앓고 있는 "치명적 망각"은 가짜 문제라고 생각합니다. 과거에는 컨텍스트(Context)가 너무 짧았기 때문에, 새로운 지식을 주입하기 위해 반드시 "가중치(Weights)"를 업데이트해야만 했고, 이 과정에서 기존 지식이 파괴되었기 때문입니다.

  • 만약 컨텍스트가 무한하고 저렴하다면, 새로운 지식은 완전히 "상태/컨텍스트(State/Context)"를 통해 주입되어야 하며, 가중치를 전혀 건드릴 필요가 없습니다 [39:19].

  • 파격적인 "인간의 뇌/진화" 비유 [39:33]:

  • 오해: 많은 사람이 거대 모델의 가중치를 업데이트하는 것을 인간의 학습에 비유합니다.

  • Jacob의 관점: 인간이 살아온 일생과 흡수한 모든 경험은 본질적으로 "상태 업데이트(State Updates)"입니다. 당신의 뇌 속에서 번쩍이는 전기 신호는 현재의 상태이며, 이는 가중치 업데이트와 무관합니다.

  • 가중치의 본질은 "진화(Evolution)"입니다 [40:24]. 인류의 게놈은 수억 년의 진화(경사 하강법(Gradient Descent)과 유사함)를 거쳐 우리에게 완벽한 "뇌 구조(Weights)"를 부여했습니다. 이 구조가 잘하는 것은 새로운 입력 컨텍스트를 처리하여 이를 올바른 상태로 변환하는 방법입니다. 미래의 AI는 가중치를 빈번하게 수정하는 것을 멈추고, 가중치는 안정적으로 유지하며, 지식이 상태 속에서 흐르도록 해야 합니다 [41:09].

5. 미래의 킬러 애플리케이션 시나리오

  • '컨설턴트'에서 '집사'로의 경험적 전환 [45:33]:

  • 현재의 Transformer는 KV Cache (Key-Value Cache) 비용이 점점 비싸지기 때문에, 일정 시간이 지나면 반드시 '새 대화 시작'을 강요합니다 [45:22]. 이로 인해 AI는 만날 때마다 배경 설명을 다시 해야 하는 '임시 컨설턴트'와 같습니다.

  • Power Retention (전력 유지/상태 유지)은 고정된 비용으로 평생 동안 상태를 업데이트할 수 있게 하며 [44:58], AI는 당신이 자라는 과정을 지켜보며 당신의 모든 희로애락과 과거의 문제를 이해하는 '노련한 집사'로 변모할 것입니다 [45:50].

  • 기업급 '슈퍼 프로젝트 매니저' [47:54]:

  • 회사 전체가 상태를 공유하는 AI를 설계할 수 있습니다. 모든 구성원이 동일한 AI와 대화하며, AI는 A 직원의 경험을 실시간으로 흡수하여 B 직원의 장애물을 해결하는 데 활용함으로써 완벽한 팀 간 협업 조율 역할을 수행할 수 있습니다 [48:41].

  • 환각을 제거하는 '정보 검색 에이전트 (IR Agents)' [27:31]:

  • 더 이상 ad-hoc (임시/외장형) RAG (검색 증강 생성) 검색 알고리즘이 필요하지 않습니다. 초장기 컨텍스트 (Ultra-long Context)를 통해 에이전트는 강화학습 (RL)을 거쳐 어떤 도구를 호출할지, 어떤 문헌을 검색할지, 다음 단계로 무엇을 연구할지를 스스로 결정하며, 전체 연구 궤적을 엔드투엔드 (End-to-End)로 기억할 수 있습니다 [28:16].

  • AI는 인간 과학자처럼 수 주에 걸친 완전한 연구를 마친 후에 결론을 내림으로써, 대규모 언어 모델 (LLM)의 환각 현상을 완전히 제거할 것입니다 [29:00].

  • 임바디드 AI (Embodied AI)와 로봇 생애 주기의 연속성 [49:42]:

  • 이 아키텍처는 멀티모달 (비디오, 오디오, 센서 데이터 임베딩) [52:06]에도 동일하게 적용됩니다.

  • 이를 통해 로봇은 출고부터 폐기까지 **단일 통합 상태 (Single Unified State)**를 유지할 수 있습니다 [50:01]. 로봇이 하드웨어 노후화나 신체 손상(예: 다리 부상)을 겪더라도, 인간이 부상을 입었을 때처럼 평생 쌓아온 물리적 직관을 바탕으로 움직임 속에서 실시간으로 온라인 학습 및 적응을 하며 새로운 보행 자세를 익힐 수 있습니다 [51:06].

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0