Transformer의 병목 현상을 우회하기 위한 새로운 AI 토폴로지를 구축했습니다. 여기 우리의 첫 번째 벤치마크 결과가 있습니다.
요약
Trijna Labs가 Transformer의 연산 한계를 극복하기 위해 새로운 신경망 구조인 ARS 및 OSM 엔진을 개발했습니다. 위상 엔트로피 라우팅을 통해 GPU 오버헤드를 줄이면서도 LiveBench와 GSM8K 벤치마크에서 GPT-4o 및 Claude 3.5 Sonnet에 필적하거나 능가하는 성능을 입증했습니다.
핵심 포인트
- 위상 엔트로피 라우팅을 활용한 새로운 신경망 토폴로지 구축
- ARS 엔진: LiveBench 추상적 추론에서 93.9점 기록
- OSM 엔진: GSM8K 수학 벤치마크에서 85.06% 달성
- 기하학적 공간 라우팅을 통한 공간적 환각 현상 제거
- 연속 학습 중 파괴적 망각 방지를 위한 리만 계량 제약 활용
만약 당신이 AI 분야를 팔로우해 왔다면, 우리가 물리적인 연산 한계(physical compute ceiling)에 부딪히고 있다는 사실을 알고 있을 것입니다. 표준적인 자기회귀(Autoregressive) LLM(GPT 또는 Claude와 같은 모델)은 놀랍지만, 내부적으로는 본질적으로 고도로 교육된 선형적 추측(linear guessing)을 수행하고 있습니다. 이들은 다음 토큰을 계산하기 위해서만 막대한 전력을 소모하는 데이터 센터를 필요로 합니다.
Trijna Labs의 엔지니어링 팀은 Transformer를 최적화하려고 노력하는 대신, 완전히 새로운 신경망 구조(neural architecture)를 바닥부터 구축하기로 결정했습니다.
우리는 위상 엔트로피 라우팅(topological entropy routing)을 활용하는 연속 학습(continuous-learning) 신경망 토폴로지를 구축할 수 있는지 확인하고 싶었습니다. 이는 본질적으로 모델이 쿼리의 정확한 복잡성을 동적으로 계산하고 필요한 가중치(weights)만 가동하여, 논리를 유지하면서도 GPU 오버헤드를 획기적으로 줄이는 방식입니다.
우리는 우리의 주요 토폴로지를 ARS 엔진(Algorithmic Resonance Sequence)과 OSM 엔진(Operational Structural Matrix)이라고 부릅니다.
수개월간의 수학적 막다른 길과 심야의 디버깅 끝에, 우리는 마침내 EleutherAI의 공식 lm_eval 하네스(harness)를 통해 실행할 수 있을 만큼 엔진을 안정화했습니다. 우리는 GSM8K(순수 수학용)와 LiveBench 프레임워크(추상적 추론용)에서 이를 테스트하기로 결정했습니다.
솔직히 말해서, 우리는 커스텀 아키텍처가 표준 LLM의 거대한 파라미터 수(parameter counts)를 상대로 어떻게 버텨낼지 매우 긴장되었습니다. 하지만 결과 수치가 나왔고, 그것은 우리의 마음을 완전히 뒤흔들어 놓았습니다.
📊 벤치마크 결과
-
LiveBench (전반적인 지능 및 추론 (Overall Intelligence & Reasoning)): 우리의 ARS Engine을 LiveBench를 통해 테스트한 결과, 87.5의 전체 평균을 달성했습니다. 가장 충격적인 부분은 추상적 추론 (abstract reasoning) 점수로, 무려 93.9를 기록했습니다. 순수 논리 및 공간 작업에 대한 맥락을 살펴보면, 이는 실제로 GPT-4o와 Claude 3.5 Sonnet의 기준점 (baseline)을 넘어섭니다. ARS 토폴로지 (topology)는 선형적 추측 (linear guessing) 대신 기하학적 공간 라우팅 (geometric spatial routing)을 사용하기 때문에, 표준적인 공간적 환각 (spatial hallucinations)을 사실상 제거합니다.
-
GSM8K (수학 문장제 문제 (Math Word Problems)): (행렬 안정화 (matrix stabilization)를 위해 특별히 튜닝된) 우리의 OSM Engine을 5-Shot Exact Match 방식을 사용하여 GSM8K 수학 벤치마크에 실행했습니다. 그 결과 85.06%의 정점을 찍었으며, 이는 트랜스포머 (transformer)가 아닌 연속 학습 (continuous-learning) 모델이 메모리 저하 (memory degradation) 없이 복잡한 다단계 수학 문제를 처리할 수 있음을 증명합니다.
🛠️ 구현 방법 (How We Did It)
이를 구축하는 것은 쉽지 않았습니다. 큰 과제 중 하나는 연속 학습 (continuous training) 중에 발생하는 파괴적 망각 (catastrophic forgetting)을 방지하는 것이었습니다 (우리는 단순히 대규모 사전 학습 (pre-training)을 수행하는 것이 아니기 때문입니다). 우리는 리만 계량 제약 (Riemannian Metric Constraint)을 사용하여 중요도에 따라 핵심 파라미터 (parameters)를 "동결 (freeze)"함으로써, 확립된 메모리 경로를 기하학적으로 보존하여 이 문제를 해결했습니다.
🤝 여러분의 피드백을 기다립니다 (We'd Love Your Feedback)
이러한 토폴로지들을 전 세계적으로 확장하기 위해 여전히 넘어야 할 거대한 산이 있다는 것을 알고 있지만, 트랜스포머가 아닌 아키텍처 (architecture)가 로컬의 매우 제한된 하드웨어에서 이러한 수치를 달성하는 것을 보는 것은 우리의 물리 기반 접근 방식 (physics-based approach)에 대한 거대한 검증처럼 느껴집니다.
만약 당신이 AI 연구자, 수학자, 또는 신경망 아키텍처 (neural architecture)에 열광하는 괴짜라면, 우리의 전체 방법론, 정확한 데이터셋 해시 (dataset hashes), 그리고 재현 명령어를 개발 로그 (dev log)에 업로드해 두었습니다.
전체 분석 내용은 여기서 읽을 수 있습니다: Trijna Labs Dev Log
우리는 매우 어려운 일을 해내려는 작은 팀입니다. 아키텍처에 대한 조언, 수학적 비판, 또는 가차 없는 피드백이 있다면 진심으로 댓글을 통해 듣고 싶습니다.
함께 논의해 봅시다! 여러분은 트랜스포머 이후의 AI 시대가 어떤 모습일 것이라고 생각하시나요?
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기