arXiv논문2026. 06. 05. 13:25

FontFusion: 타이포그래피 조건부 부여를 통한 확산 모델(Diffusion Models)의 생성 텍스트 성능 향상

요약

FontFusion은 Diffusion Transformer(DiT) 아키텍처에서 텍스트 가독성과 폰트 충실도 사이의 트레이드오프를 해결하는 새로운 프레임워크입니다. 계층적 토큰 표현과 위치 인식 임베딩을 통해 재학습 없이도 정밀한 타이포그래피 생성을 가능하게 합니다.

핵심 포인트

DiT를 위한 플러그 앤 플레이 방식의 조건부 부여 프레임워크 제안
계층적 토큰 표현 및 위치 인식 임베딩을 통한 공간적 결합 구현
다단계 토큰 드롭핑 전략으로 계산 효율성 및 일반화 성능 향상
장식용 폰트에서 기존 베이스라인 대비 최대 76% 성능 개선 입증

확산 모델 (Diffusion Models)에서의 타이포그래피 (Typography) 생성은 지속적인 트레이드오프 (trade-off) 문제에 직면해 있습니다. 즉, 정밀한 폰트 제어를 가능하게 하면 일반적으로 텍스트의 가독성 (legibility)이 저하되는 반면, 가독성을 유지하면 타이포그래피의 충실도 (fidelity)가 희생되는 경우가 많습니다. 본 논문에서는 Diffusion Transformer (DiT) 아키텍처를 위한 플러그 앤 플레이 (plug-and-play) 방식의 조건부 부여 (conditioning) 프레임워크인 FontFusion을 제안하며, 이는 세 가지 핵심 혁신을 통해 이 딜레마를 해결합니다: (1) 여러 계층의 세밀함 (granularities)에서 명시적인 텍스트-폰트 관계를 구축하는 계층적 토큰 표현 (hierarchical token representation), (2) 타이포그래피와 이미지 콘텐츠 간의 공간적 결합 (spatial bindings)을 생성하는 위치 인식 임베딩 (position-aware embeddings), (3) 계산 효율성과 미학습 폰트에 대한 일반화 성능을 모두 향상시키는 다단계 토큰 드롭핑 (multi-level token dropping) 전략입니다. 폰트 임베딩 공간에 대한 체계적인 평가 결과, DeepFont와 DINOv2를 결합한 이중 인코더 (dual encoder)가 타이포그래피 작업에서 단일 인코더보다 뛰어난 성능을 보임을 확인했습니다. FontFusion은 기존 DiT 아키텍처를 재학습시키지 않고도 통합이 가능하며, 까다로운 장식용 폰트에서 단일 인코더 베이스라인 대비 76%의 상대적 개선을 보여주었고, 조건부 부여가 없는 모델 대비 약 68-76%를 상회하는 폰트 일관성 (font consistency) 이득을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

FontFusion: 타이포그래피 조건부 부여를 통한 확산 모델(Diffusion Models)의 생성 텍스트 성능 향상

요약

핵심 포인트

댓글