X요약2026. 06. 26. 19:12

ViQ: 모든 해상도에서 텍스트 정렬된 시각적 양자화 표현 (Text-Aligned Visual Quantized Representations

요약

ViQ는 이산적 시각적 토크나이저와 연속적 인코더 사이의 간극을 메우는 새로운 기술입니다. 모든 해상도에서 이미지를 이산 코드로 처리하여 멀티모달 학습 시간을 20~70%까지 단축할 수 있습니다.

ViQ는 이산적 시각적 토크나이저 (discrete visual tokenizers)와 연속적 인코더 (continuous encoders) 사이의 간극을 메웁니다.

ViQ는 이미지를 모든 해상도에서 이산 코드 (discrete codes)로 처리하여, 멀티모달 (multimodal) 학습 시간을 20–70% 단축합니다. https://t.co/QxxPcXZlFA
[IMG:1]

AI 자동 생성 콘텐츠