DRM Language Emitter 소개: 학습된 기하학을 통한 움직임으로서의 언어 생성
요약
Transformer의 어텐션 메커니즘 대신 학습된 기하학적 관계를 활용하는 새로운 언어 모델 연구인 DRM Language Emitter를 소개합니다. 이 모델은 잠재 상태의 움직임을 통해 언어를 생성하며, 셀프 어텐션이나 KV 캐시 없이도 자기회귀적 생성이 가능함을 탐구합니다.
핵심 포인트
- Transformer의 어텐션 메커니즘을 대체하는 기하학 우선(Geometry-first) 접근법
- 학습된 관계형 매니폴드를 통한 제어된 움직임으로 언어 생성 모델링
- 진화하는 잠재 상태(Evolving Latent State)를 통한 메모리 구현
- 셀프 어텐션, Q/K/V, KV 캐시를 사용하지 않는 실험적 아키텍처
오늘날 대부분의 언어 모델(Language Models)은 Transformer 패러다임을 중심으로 구축되어 있습니다.
이는 타당한 선택입니다.
Transformer는 효과적입니다.
확장성(Scale)이 좋습니다.
현대 NLP를 지배하고 있습니다.
하지만 저는 다른 질문을 탐구해보고 싶었습니다:
만약 언어 생성(Language Generation)이 컨텍스트 윈도우(Context Window)에 대한 어텐션(Attention)으로 모델링될 필요가 없다면 어떨까?
만약 모델이 학습된 기하학(Learned Geometry)을 통해 진화하는 잠재 상태(Latent State)를 전달함으로써 언어를 생성할 수 있다면 어떨까?
그것이 바로 DRM Language Emitter의 핵심 아이디어입니다.
Repository:
https://github.com/gnai-creator/drm-language-emitter
DRM Language Emitter란 무엇인가?
DRM Language Emitter는 실험적인, 기하학 우선(Geometry-first) 언어 모델 연구소입니다.
이것은 Transformer가 아닙니다.
DRM 모델 내부에서는 다음을 사용하지 않습니다:
- Transformer 블록 (Transformer blocks)
- 셀프 어텐션 (Self-attention)
- Q/K/V 어텐션 (Q/K/V attention)
nn.MultiheadAttention- KV 캐시 (KV cache)
대신, 언어 생성을 학습된 관계형 매니폴드(Relational Manifold)를 통한 제어된 움직임(Controlled Motion)으로 취급합니다.
기본적인 흐름은 다음과 같습니다:
token
-> latent state z_t
-> active directions
...
이 모델은 여전히 자기회귀(Autoregressive) 방식입니다.
하지만 모델의 메모리는 토큰 시퀀스에 대한 어텐션이 아닙니다.
모델의 메모리는 진화하는 잠재 상태(Evolving Latent State)입니다.
핵심 가설
작동 가설은 다음과 같습니다:
언어 생성은 학습된 관계형 상태 공간(Relational State Space)을 통한 움직임으로 모델링될 수 있다.
이는 모델이 단순히 다음과 같이 묻지 않는다는 것을 의미합니다:
이전의 어떤 토큰들에 어텐션을 해야 하는가?
대신 다음과 유사한 질문을 던집니다:
잠재 공간(Latent Space)에서 나의 위치는 어디인가?
어떤 방향들이 활성화되어 있는가?
학습된 메트릭(Metric) 하에서 움직임의 비용은 얼마나 발생하는가?
...
이것이 제가 이를 기하학 우선(Geometry-first) 언어 에미터(Language Emitter)라고 부르는 이유입니다.
단순화된 아키텍처
아키텍처는 다음과 같이 요약될 수 있습니다:
input_ids
|
TokenEmbedding
...
최소한의 개념적 버전은 다음과 같습니다:
for token in sequence:
embedding = token_embedding(token)
...
중요한 부분은 모델이 명시적인 내부 기하학(Internal Geometry)을 가지고 있다는 점입니다.
모델은 다음을 기록하고 측정할 수 있습니다:
- 메트릭 액션 (metric action)
- 활성 차원 (active dimension)
- 게이트 엔트로피 (gate entropy)
- 메트릭 노름 (metric norm)
- 조건 프록시 (condition proxy)
- 재귀 (recurrence)
- 안정성 (stability)
- 저액션 경로 진단 (low-action path diagnostics)
이러한 특성 덕분에 이 모델은 생성기(generator)로서뿐만 아니라 연구 대상(object of study)으로서도 흥미롭습니다.
왜 단순히 Transformer를 사용하지 않는가?
Transformer는 올바른 베이스라인 (baseline)입니다.
그렇기에 해당 리포지토리(repository)에는 아주 작은 규모의 Transformer 비교 실험이 포함되어 있습니다.
하지만 DRM의 목표는 단순히 Transformer를 대체하겠다고 선언하는 것이 아닙니다.
목표는 서로 다른 계산 프리미티브 (computational primitive)가 작은 영역 (small regimes)에서 유용할 수 있는지를 테스트하는 것입니다.
Transformer의 프리미티브는 어텐션 (attention)입니다.
DRM의 프리미티브는 학습된 메트릭 (learned metric) 하에서의 제어된 잠재 운동 (controlled latent motion)입니다.
이 둘은 매우 다른 가정 (assumptions)을 가지고 있습니다.
Transformer는 뒤를 돌아봄으로써 문맥 (context)을 구축합니다.
DRM은 상태 (state)를 앞으로 진화시킴으로써 문맥을 운반합니다.
Transformer는 토큰-토큰 상호작용 (token-token interactions)을 계산합니다.
DRM은 상태-운동-방출 역학 (state-motion-emission dynamics)을 계산합니다.
왜 기하학인가?
기하학은 우리에게 측정 가능한 구조를 제공하기 때문입니다.
언어를 궤적 (trajectory)으로 취급한다면, 다음과 같은 질문을 던질 수 있습니다:
- 잠재 상태 (latent state)가 붕괴되는가?
- 메트릭이 불안정해지는가?
- 어떤 방향이 활성화되어 있는가?
- 모델이 좁은 영역을 통과하는가, 아니면 넓은 영역을 통과하는가?
- 생성이 매끄러운가, 아니면 혼돈스러운가?
- 기호적 전이 (symbolic transitions)가 안정적인 잠재 운동과 일치하는가?
이는 표준적인 블랙박스 토큰 예측기 (black-box token predictor)에서는 표현하기 어려운 진단 (diagnostics)의 문을 열어줍니다.
목표는 신비주의적인 기하학이 아닙니다.
목표는 측정 가능한 기하학입니다.
리포지토리 구조
리포지토리는 다음을 포함합니다:
src/drm_language_emitter/ DRM 모델 패키지
transformer/ tiny Transformer 베이스라인
world_model/ tiny 기호적 세계 모델 (symbolic world-model) 베이스라인
...
이 프로젝트는 CPU로 실행 가능합니다.
CUDA는 선택 사항입니다.
빠른 시작
설치:
pip install -e .
작은 규모의 DRM 모델 학습:
python scripts/train_tiny.py \
--config configs/tiny.yaml \
--text data/tiny.txt
텍스트 생성:
python scripts/generate.py \
--checkpoint runs/tiny/drm_tiny.pt \
--prompt "DRM "
기하학적 진단 실행 (Run geometry diagnostics):
python scripts/eval_geometry.py \
--checkpoint runs/tiny/drm_tiny.pt
...
Tiny 벤치마크: DRM vs Transformer vs World Model
이 저장소에는 작은 기호적 벤치마크 (symbolic benchmark)도 포함되어 있습니다.
이 벤치마크는 다음 모델들을 비교합니다:
- DRM Language Emitter
- Tiny Transformer
- Tiny 지도 학습 기반 기호적 월드 모델 (Tiny supervised symbolic world model)
태스크는 텍스트로 직렬화된 결정론적 기호 그리드월드 (deterministic symbolic gridworld)입니다.
모델들은 다음과 같은 기호적 전이 (symbolic transitions)를 예측해야 합니다:
상태 (state) + 행동 (action) -> 다음 상태 (next state) + 보상 (reward) + 종료 여부 (done)
이것은 시각적 월드 모델링 (visual world modeling)이 아닙니다.
이것은 거대 멀티모달 월드 모델 (large multimodal world models)과의 비교 벤치마크도 아닙니다.
이는 모델이 언어로 표현된 이산적 역학 (discrete dynamics)을 학습할 수 있는지 테스트하기 위해 설계된 작은 기호적 텍스트 월드 (tiny symbolic text-world)입니다.
지표 (Metrics)
벤치마크는 다음 항목들을 보고합니다:
- 검증 교차 엔트로피 (validation cross-entropy)
- 다음 상태 정확 일치 (next-state exact match)
- 롤아웃 정확 일치 (rollout exact match)
- 보상 정확도 (reward accuracy)
- 종료 여부 정확도 (done accuracy)
- 유효하지 않은 상태 비율 (invalid state rate)
- 파라미터 수 (parameter count)
- 경과 시간 (elapsed time)
- 학습된 토큰 수 (tokens seen)
- 처리량 (throughput)
낮은 손실 (loss) 값만으로는 반드시 올바른 기호적 역학을 의미하지 않기 때문에 이 지표들은 중요합니다.
모델은 토큰 수준의 규칙성 (token-level regularities)은 학습할 수 있지만, 정확한 상태 전이 (state transitions)를 예측하는 데는 실패할 수 있습니다.
최신 로컬 결과
완료된 벤치마크 결과는 다음과 같습니다:
runs: 72
aggregate rows: 24
다음 상태 정확 일치 (next-state exact match) 기준 상위 결과:
| 모델 | 단계 (Steps) | 계열 (Family) | 다음 상태 정확 일치 | 롤아웃 정확 일치 | 최적 CE | 유효하지 않은 상태 비율 | 파라미터 |
|---|---|---|---|---|---|---|---|
drm_tiny | 2000 | DRM | 0.0751 | 0.0058 | 0.5511 | 0.1328 | 92,710 |
| ... |
가장 흥미로운 점은 DRM이 "모든 것에서 승리한다"는 것이 아닙니다.
그렇지 않습니다.
결과는 더 미묘합니다:
- DRM은 이 작은 기호적 텍스트 세계 (symbolic text-world)에서 가장 우수한 차상태 정확 일치 (next-state exact match) 성능을 보였습니다.
- Transformer 220k는 가장 낮은 무효 상태 비율 (invalid-state rate)을 기록했습니다.
- 작은 지도 학습 기반 세계 모델 (supervised world model)은 낮은 교차 엔트로피 (CE)에 도달했으나, 이를 강력한 정확 일치 (exact-match)나 롤아웃 (rollout) 성능으로 전환하지는 못했습니다.
- 롤아웃 정확 일치 (Rollout exact match)는 여전히 매우 낮습니다.
따라서 솔직한 해석은 다음과 같습니다:
DRM은 기호적 차상태 예측 (symbolic next-state prediction)에 대한 초기 신호를 보여주지만, 이 벤치마크는 아직 결정적이기보다는 진단적인 수준입니다.
주요 교훈
저에게 가장 중요한 시사점은 다음과 같습니다:
낮은 토큰 수준의 교차 엔트로피 (token-level cross-entropy)가 반드시 올바른 기호적 전이 모델링 (symbolic transition modeling)을 의미하는 것은 아닙니다.
이는 세계 모델 (world-model)과 유사한 작업에서 매우 중요합니다.
만약 모델이 역학 (dynamics)을 표현해야 한다면, 단순히 확률이 높은 토큰을 예측하는지 여부만을 물어서는 안 됩니다.
유효한 상태 (valid states), 정확한 전이 (exact transitions), 그리고 일관된 롤아웃 (coherent rollouts)을 예측하는지도 함께 물어야 합니다.
제가 주장하지 않는 것들
저는 DRM이 일반적으로 Transformer보다 뛰어나다고 주장하는 것이 아닙니다.
저는 DRM이 일반적으로 세계 모델 (world models)보다 뛰어나다고 주장하는 것이 아닙니다.
저는 이 벤치마크가 거대 멀티모달 세계 모델 (large multimodal world models)에 대해 무엇인가를 말해준다고 주장하는 것이 아닙니다.
저는 견고한 장기 계획 (robust long-horizon planning)을 주장하는 것도 아닙니다.
이것은 작은 연구용 스캐폴드 (research scaffold)입니다.
결과는 초기 단계입니다.
정확 일치 (exact-match) 값은 여전히 낮습니다.
모델은 더 많은 작업이 필요합니다.
제가 주장하는 것
DRM Language Emitter는 기능적인 비-Transformer (non-Transformer) 언어 모델 프로토타입입니다.
이 모델은 명시적이고 측정 가능한 기하학 (geometry)을 가지고 있습니다.
Transformer 및 기호적 세계 모델 (symbolic world-model) 베이스라인과 비교가 가능합니다.
그리고 작은 기호적 텍스트 세계 벤치마크에서, 차상태 정확 일치 (next-state exact match)에 대한 흥미로운 신호를 보여주었습니다.
이는 계속해서 연구를 이어가기에 충분한 근거입니다.
기호적 벤치마크 재현하기
데이터셋 생성:
python scripts/make_tiny_world_dataset.py \
--output-root data/tiny_world \
--seed 1 \
...
스윕 (sweep) 실행:
python scripts/sweep_world_model_competition.py \
--steps 1000 2000 3000 \
--seeds 1 2 3 \
...
대시보드 생성:
python scripts/make_world_model_dashboard.py \
--root runs/world_model_competition \
--title "DRM vs Transformer vs Tiny Symbolic World Model"
향후 계획 (Next steps)
다음에 개선하고자 하는 사항들은 다음과 같습니다:
- 제약된 기호 디코딩 (constrained symbolic decoding)
- 더 강력한 롤아웃 평가 (stronger rollout evaluation)
- CUDA 및 시간 일치 실행 (CUDA and time-matched runs)
- 기호적 세계를 위한 커리큘럼 변형 (curriculum variants for symbolic worlds)
- 더 많은 베이스라인 (more baselines)
- 메트릭 (metric), 게이트 (gates), 활성 차원 (active dimension)에 대한 더 나은 절제 연구 (ablations)
- 학습된 기하학 (learned geometry)이 교차 엔트로피 (cross-entropy) 이상의 도움을 주는지 격리하여 확인하기 위한 테스트
마치며 (Final thought)
이 프로젝트는 하나의 단순한 직관에서 시작되었습니다:
언어 생성 (language generation)을 움직임 (movement)으로 다룰 수 있지 않을까?
은유적으로가 아니라.
계산적으로.
토큰이 들어온다.
상태 (state)가 움직인다.
기하학 (geometry)이 그 움직임을 형성한다.
새로운 토큰이 방출된다.
그것이 바로 DRM Language Emitter입니다.
저장소 (Repository):
https://github.com/gnai-creator/drm-language-emitter
피드백, 비판, 재현 시도, 그리고 벤치마크 제안을 환영합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기