비대칭 흐름 모델 (Asymmetric Flow Models)

초록 (Abstract)

고차원 공간에서의 흐름 기반 생성 (Flow-based generation)은 데이터가 강력한 저계수 구조 (low-rank structure)를 가지고 있더라도, 속도 예측 (velocity prediction)을 위해 고차원 노이즈를 모델링해야 하기 때문에 어렵습니다. 우리는 데이터 예측은 전체 차원 (full-dimensional)을 유지하면서 노이즈 예측은 저계수 부분 공간 (low-rank subspace)으로 제한하는 계수 비대칭 속도 파라미터화 (rank-asymmetric velocity parameterization) 방식인 비대칭 흐름 모델링 (Asymmetric Flow Modeling, AsymFlow)을 제시합니다. 이러한 비대칭 예측으로부터, AsymFlow는 네트워크 구조나 학습/샘플링 절차를 변경하지 않고도 분석적으로 전체 차원의 속도를 복구합니다. ImageNet 256x256에서 AsymFlow는 기존의 DiT/JiT 스타일의 픽셀 확산 모델 (pixel diffusion models)을 큰 차이로 능가하며 선두적인 1.57 FID를 달성했습니다. 또한 AsymFlow는 사전 학습된 잠재 흐름 모델 (pretrained latent flow models)을 픽셀 공간 모델 (pixel-space models)로 미세 조정 (finetuning)할 수 있는 최초의 경로를 제공합니다. 저계수 픽셀 부분 공간을 잠재 공간 (latent space)에 정렬함으로써, 잠재 모델의 고수준 의미론 (high-level semantics)과 구조를 보존하는 원활한 초기화를 제공하며, 따라서 미세 조정은 픽셀 생성을 다시 학습하기보다는 주로 저수준의 불일치 (low-level mismatches)를 개선합니다. 우리는 FLUX.2 klein 9B로부터 미세 조정된 픽셀 AsymFlow 모델이 HPSv3, DPG-Bench, GenEval에서 잠재 기반 모델을 능가하며 픽셀 공간 텍스트-투-이미지 (text-to-image) 생성의 새로운 SOTA (state of the art)를 구축함을 보여주며, 질적으로 실질적으로 향상된 시각적 사실성을 보여줍니다.

Insights

비대칭 흐름 모델 (Asymmetric Flow Models)

요약

핵심 포인트

댓글

MCP를 활용한 코드 실행: '코드 모드(Code Mode)'가 에이전트 토큰 비용을 90% 이상 절감하는 방법

SenseNova-Vision: SenseTime이 공식 오픈소스로 공개한 이해 및 생성 통합 비전 거대 모델

베테랑 전략가가 반도체 주식에 보내는 강력한 경고

Blackstone, 강력한 자금 유입으로 AUM 증가하며 2분기 실적 예상치 상회

MCP를 활용한 코드 실행: '코드 모드(Code Mode)'가 에이전트 토큰 비용을 90% 이상 절감하는 방법

SenseNova-Vision: SenseTime이 공식 오픈소스로 공개한 이해 및 생성 통합 비전 거대 모델

베테랑 전략가가 반도체 주식에 보내는 강력한 경고

Blackstone, 강력한 자금 유입으로 AUM 증가하며 2분기 실적 예상치 상회