SupraLabs가 Any2Any 모델 제품군을 시작했습니다!

요약

SupraLabs가 텍스트, 이미지, 비디오를 단일 토큰 스트림으로 처리하는 ~30M 파라미터 규모의 Any-to-Any 멀티모달 Transformer 모델인 Supra-A2A-Nano-Exp를 공개했습니다. 별도의 비전 인코더나 확산 모델 없이 공유된 어휘집을 통해 모든 모달리티를 언어 모델링 방식으로 통합한 실험적 프로토타입입니다.

핵심 포인트

텍스트, 이미지, 비디오를 하나의 통합된 토큰 스트림으로 처리
별도의 비전 인코더나 교차 주의 집중 모듈 없이 구현
VQ-VAE를 활용하여 시각적 정보를 토큰화하여 통합
약 30M 파라미터 규모의 경량 실험적 모델

SupraLabs Supra-A2A-Nano-Exp - ~30M Any-to-Any 멀티모달 (Multimodal) Transformer 상태: 실험적 / 교육용 프로토타입 (Prototype) --- ## 🚀 개요 (Overview) Supra-A2A-Nano-Exp는 텍스트 (text), 이미지 (image), 비디오 (video)를 단일 토큰 스트림 (token stream)으로 통합하는 ~30M 파라미터 (parameter) 자기회귀 (autoregressive) Transformer입니다. 다음과 같은 특징이 있습니다:

별도의 비전 인코더 (vision encoder) 없음
확산 모델 (diffusion model) 없음
모달리티 (modalities) 간의 교차 주의 집중 (cross-attention) 모듈 없음
대신, 모든 것이 하나의 공유된 시퀀스 (sequence) 내의 토큰 (tokens)으로 처리됩니다. --- ## 🧠 핵심 아이디어 (Core Idea) 이 모델은 토큰이 다음을 나타낼 수 있는 통합된 스트림에서 다음 토큰을 예측합니다:
텍스트 (Text) (BPE 토큰)
이미지 패치 (Image patches) (VQ-VAE 코드)
비디오 프레임 (Video frames) (시각적 토큰의 시퀀스)
👉 멀티모달리티 (Multimodality) = 공유된 어휘집 (vocabulary)에 대한 언어 모델링 (language modeling). --- ## 🔤 통합 토큰 스트림 형식 (Unified Token Stream Format) <TEXT>some text</TEXT> <IMAGE><FRAME>[64 visual tokens]</IMAGE> <VIDEO><FRAME>[frames of visual tokens]</VIDEO> --- ## 📚 토큰화 (Tokenization) ### 텍스트 측면 (Text side)
GPT-2 BPE 토크나이저 (tokenizer): 50,257 토큰
특수 토큰 (Special tokens) (7개):
<TEXT>, </TEXT>
<IMAGE>, </IMAGE>
<VIDEO>, </VIDEO>
<FRAME>
총 텍스트 어휘집: 50,264 토큰

--- ### 비전 측면 (Vision side)

VQ-VAE 인코더/디코더 (encoder/decoder)
3계층 컨볼루션 인코더 (3-layer convolutional encoder) (/8 다운샘플링)
코드북 (Codebook): 256 entries × 64 dimensions
이미지 64×64 → 8×8 그리드 (grid) → 64 토큰

--- ### 결합된 어휘집 (Combined vocabulary) 50,264 (text) + 256 (visual) = 50,520 tokens --- ## 🏗️ 아키텍처 (Architecture) | 구성 요소 (Component) | 사양 (Specification) | |----------|--------------| | 백본 (Backbone) | GPT 스타일 Transformer | | 레이어 (Layers) | 4 | | 임베딩 크기 (Embedding size) | 256 | | 컨텍스트 길이 (Context length) | 384 토큰 | | 어텐션 헤드 (Attention heads) | 4 (가정됨) | | MLP | 4× 확장 (expansion) | | 총 파라미터 (Total parameters) | ~29.9M | | 정밀도 (Precision) | FP32 | --- ## 📁 저장소 파일 (Repository Files) | 파일 (File) | 설명 (Description) | |------|-------------| | model.safetensors | GPT 백본 가중치 (weights) | | vqvae.safetensors | VQ-VAE 가중치 (weights) | | tokenizer.json | BPE 토크나이저 (tokenizer) | | tokenizer_config.json | 토크나이저 메타데이터 (metadata) | | run_supra_a2a.py | 전체 추론 파이프라인 (Readme.md의 코드) | --- ## ⚙️ 설치 (Installation) bash pip install torch transformers huggingface_hub safetensors Pillow numpy --- ## 🧪 사용 모드 (Usage Modes) ### 텍스트 생성 (Text generation) bash python run_supra_a2a.py --mode text --prompt "<TEXT>Once upon a time" ### 채팅 모드 (Chat mode) bash python run_supra_a2a.py --mode chat ### 이미지 재구성 (Image reconstruction) bash python run_supra_a2a.py --mode reconstruct --image input.png --out output.png ### 텍스트-이미지 (Text-to-image) bash python run_supra_a2a.py --mode text2image --prompt "<TEXT>a red square</TEXT><IMAGE>" --out output.png --- ## 🧩 핵심 통찰 (Key Insight) 이 모델은 모달리티 사이를 전환하지 않습니다. 단순히 다음과 같이 수행합니다:

다음 토큰을 예측합니다.
그 토큰은 다음과 같을 수 있습니다:

단어
시각적 코드 (visual code)
프레임 요소 (frame element)
모든 것이 동등하게 취급됩니다. --- ## ⚠️ 중요한 주의 사항 (Important Caveats) ### 어텐션 헤드 (Attention heads) (추론됨)
기본 가정: 4개 헤드
체크포인트 (checkpoint)에 따라 다를 수 있음
잘못된 값은 성능을 조용히 저하시킬 수 있음

--- ### VQ-VAE 출력 활성화 함수 (VQ-VAE output activation)
기본 가정:

sigmoid (0–1 범위)
대안:
tanh (-1 to 1 범위) --- ## 📉 한계점 (Limitations) - ~30M 파라미터 (작은 규모) - 384 토큰 컨텍스트 윈도우 (context window) - 저해상도, 추상적인 이미지 생성 - RLHF 또는 인스트럭션 튜닝 (instruction tuning) 없음 - 실험적 연구 프로토타입 --- ## 💡 해석 (Interpretation) 이 아키텍처는 급진적인 단순화를 탐구합니다: 비전과 언어를 위한 별도의 시스템 대신:
👉 모든 것이 토큰이 됩니다
👉 모든 것이 하나의 Transformer에 의해 모델링됩니다
👉 모달리티 경계가 사라집니다 --- ## 🧠 최종 결론 (Final Take) 이것은 프로덕션급 (production-grade) 모델이 아닙니다. 하지만 다음과 같은 점을 보여주는 깔끔한 개념적 실험입니다:
이미지는 토큰 시퀀스 (token sequences)가 될 수 있음
비디오는 토큰 시퀀스가 될 수 있음
멀티모달 학습은 순수한 언어 모델링이 될 수 있음

피드백 환영합니다!

제출자: /u/Dangerous_Try3619
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

SupraLabs가 Any2Any 모델 제품군을 시작했습니다!

요약

핵심 포인트

댓글