SupraLabs가 Any2Any 모델 제품군을 시작했습니다!
요약
SupraLabs가 텍스트, 이미지, 비디오를 단일 토큰 스트림으로 처리하는 ~30M 파라미터 규모의 Any-to-Any 멀티모달 Transformer 모델인 Supra-A2A-Nano-Exp를 공개했습니다. 별도의 비전 인코더나 확산 모델 없이 공유된 어휘집을 통해 모든 모달리티를 언어 모델링 방식으로 통합한 실험적 프로토타입입니다.
핵심 포인트
- 텍스트, 이미지, 비디오를 하나의 통합된 토큰 스트림으로 처리
- 별도의 비전 인코더나 교차 주의 집중 모듈 없이 구현
- VQ-VAE를 활용하여 시각적 정보를 토큰화하여 통합
- 약 30M 파라미터 규모의 경량 실험적 모델
SupraLabs Supra-A2A-Nano-Exp - ~30M Any-to-Any 멀티모달 (Multimodal) Transformer 상태: 실험적 / 교육용 프로토타입 (Prototype) --- ## 🚀 개요 (Overview) Supra-A2A-Nano-Exp는 **텍스트 (text), 이미지 (image), 비디오 (video)**를 단일 토큰 스트림 (token stream)으로 통합하는 ~30M 파라미터 (parameter) 자기회귀 (autoregressive) Transformer입니다. 다음과 같은 특징이 있습니다:
- 별도의 비전 인코더 (vision encoder) 없음
- 확산 모델 (diffusion model) 없음
- 모달리티 (modalities) 간의 교차 주의 집중 (cross-attention) 모듈 없음
대신, 모든 것이 하나의 공유된 시퀀스 (sequence) 내의 토큰 (tokens)으로 처리됩니다. --- ## 🧠 핵심 아이디어 (Core Idea) 이 모델은 토큰이 다음을 나타낼 수 있는 통합된 스트림에서 다음 토큰을 예측합니다: - 텍스트 (Text) (BPE 토큰)
- 이미지 패치 (Image patches) (VQ-VAE 코드)
- 비디오 프레임 (Video frames) (시각적 토큰의 시퀀스)
👉 멀티모달리티 (Multimodality) = 공유된 어휘집 (vocabulary)에 대한 언어 모델링 (language modeling). --- ## 🔤 통합 토큰 스트림 형식 (Unified Token Stream Format)<TEXT>some text</TEXT> <IMAGE><FRAME>[64 visual tokens]</IMAGE> <VIDEO><FRAME>[frames of visual tokens]</VIDEO>--- ## 📚 토큰화 (Tokenization) ### 텍스트 측면 (Text side) - GPT-2 BPE 토크나이저 (tokenizer): 50,257 토큰
- 특수 토큰 (Special tokens) (7개):
<TEXT>,</TEXT><IMAGE>,</IMAGE><VIDEO>,</VIDEO><FRAME>
총 텍스트 어휘집: 50,264 토큰
--- ### 비전 측면 (Vision side)
- VQ-VAE 인코더/디코더 (encoder/decoder)
- 3계층 컨볼루션 인코더 (3-layer convolutional encoder) (/8 다운샘플링)
- 코드북 (Codebook): 256 entries × 64 dimensions
- 이미지 64×64 → 8×8 그리드 (grid) → 64 토큰
--- ### 결합된 어휘집 (Combined vocabulary) 50,264 (text) + 256 (visual) = 50,520 tokens --- ## 🏗️ 아키텍처 (Architecture) | 구성 요소 (Component) | 사양 (Specification) | |----------|--------------| | 백본 (Backbone) | GPT 스타일 Transformer | | 레이어 (Layers) | 4 | | 임베딩 크기 (Embedding size) | 256 | | 컨텍스트 길이 (Context length) | 384 토큰 | | 어텐션 헤드 (Attention heads) | 4 (가정됨) | | MLP | 4× 확장 (expansion) | | 총 파라미터 (Total parameters) | ~29.9M | | 정밀도 (Precision) | FP32 | --- ## 📁 저장소 파일 (Repository Files) | 파일 (File) | 설명 (Description) | |------|-------------| | model.safetensors | GPT 백본 가중치 (weights) | | vqvae.safetensors | VQ-VAE 가중치 (weights) | | tokenizer.json | BPE 토크나이저 (tokenizer) | | tokenizer_config.json | 토크나이저 메타데이터 (metadata) | | run_supra_a2a.py | 전체 추론 파이프라인 (Readme.md의 코드) | --- ## ⚙️ 설치 (Installation) bash pip install torch transformers huggingface_hub safetensors Pillow numpy --- ## 🧪 사용 모드 (Usage Modes) ### 텍스트 생성 (Text generation) bash python run_supra_a2a.py --mode text --prompt "<TEXT>Once upon a time" ### 채팅 모드 (Chat mode) bash python run_supra_a2a.py --mode chat ### 이미지 재구성 (Image reconstruction) bash python run_supra_a2a.py --mode reconstruct --image input.png --out output.png ### 텍스트-이미지 (Text-to-image) bash python run_supra_a2a.py --mode text2image --prompt "<TEXT>a red square</TEXT><IMAGE>" --out output.png --- ## 🧩 핵심 통찰 (Key Insight) 이 모델은 모달리티 사이를 전환하지 않습니다. 단순히 다음과 같이 수행합니다:
다음 토큰을 예측합니다.
그 토큰은 다음과 같을 수 있습니다:
- 단어
- 시각적 코드 (visual code)
- 프레임 요소 (frame element)
모든 것이 동등하게 취급됩니다. --- ## ⚠️ 중요한 주의 사항 (Important Caveats) ### 어텐션 헤드 (Attention heads) (추론됨) - 기본 가정: 4개 헤드
- 체크포인트 (checkpoint)에 따라 다를 수 있음
- 잘못된 값은 성능을 조용히 저하시킬 수 있음
--- ### VQ-VAE 출력 활성화 함수 (VQ-VAE output activation)
기본 가정:
- sigmoid (0–1 범위)
대안: - tanh (-1 to 1 범위) --- ## 📉 한계점 (Limitations) - ~30M 파라미터 (작은 규모) - 384 토큰 컨텍스트 윈도우 (context window) - 저해상도, 추상적인 이미지 생성 - RLHF 또는 인스트럭션 튜닝 (instruction tuning) 없음 - 실험적 연구 프로토타입 --- ## 💡 해석 (Interpretation) 이 아키텍처는 급진적인 단순화를 탐구합니다: 비전과 언어를 위한 별도의 시스템 대신:
👉 모든 것이 토큰이 됩니다
👉 모든 것이 하나의 Transformer에 의해 모델링됩니다
👉 모달리티 경계가 사라집니다 --- ## 🧠 최종 결론 (Final Take) 이것은 프로덕션급 (production-grade) 모델이 아닙니다. 하지만 다음과 같은 점을 보여주는 깔끔한 개념적 실험입니다: - 이미지는 토큰 시퀀스 (token sequences)가 될 수 있음
- 비디오는 토큰 시퀀스가 될 수 있음
- 멀티모달 학습은 순수한 언어 모델링이 될 수 있음
피드백 환영합니다!
제출자: /u/Dangerous_Try3619
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기