arXiv논문2026. 06. 19. 12:10

FreeStyle: 커뮤니티 LoRA 마이닝을 통한 스타일-콘텐츠 이중 참조 생성의 자유로운 제어

요약

FreeStyle은 커뮤니티 LoRA 마이닝을 활용하여 스타일과 콘텐츠를 분리하여 제어하는 이중 참조 생성 프레임워크입니다. 어텐션 제약과 RoPE 변조 기술을 통해 스타일 참조의 의미론적 누출을 방지하고 높은 콘텐츠 충실도를 유지합니다.

핵심 포인트

커뮤니티 LoRA를 활용한 대규모 스타일-콘텐츠 트리플렛 구축
어텐션 레벨 제약 및 RoPE 변조를 통한 의미론적 누출 방지
스타일 불변 콘텐츠 정렬 점수(CAS) 등 새로운 벤치마크 도입
스타일 정렬, 콘텐츠 보존, 누출 억제 간의 강력한 균형 달성

스타일-콘텐츠 이중 참조 생성 (Style-content dual-reference generation)은 콘텐츠 참조 (content reference)의 구조와 의미를 보존하면서 별도의 스타일 참조 (style reference)의 스타일을 채택하는 이미지를 합성하는 것을 목표로 합니다. 최근의 발전에도 불구하고, 모델이 스타일 참조로부터의 의미론적 누출 (semantic leakage)을 방지하면서 콘텐츠 충실도 (content fidelity), 스타일 정렬 (style alignment), 그리고 지시어 이행 (instruction following) 사이의 균형을 맞춰야 하기 때문에 이 설정은 여전히 도전적인 과제로 남아 있습니다. 주요 병목 현상은 깨끗한 콘텐츠-스타일 분리와 광범위한 롱테일 스타일 커버리지를 갖춘 대규모 트리플렛 (triplet) 데이터의 부족입니다. 본 연구에서는 커뮤니티 LoRA 마이닝 (community LoRA mining)에 기반한 확장 가능한 이중 참조 생성 프레임워크인 FreeStyle을 제안합니다. 우리는 커뮤니티 LoRA를 스타일과 콘텐츠를 위한 구성적 앵커 (compositional anchors)로 취급하며, 여러 베이스 모델 (base models)에 걸쳐 대규모 스타일 참조 (Style-Reference) 및 콘텐츠 참조 (Content-Reference) 트리플렛을 구축하기 위해 엄격한 생성 및 필터링 파이프라인을 설계합니다. 콘텐츠 누출을 해결하기 위해, 우리는 단계별 분리 메커니즘을 갖춘 2단계 커리큘럼 (two-stage curriculum)을 채택합니다: 스타일 전이 (style-transfer) 단계에서 스타일 참조 누출을 억제하는 어텐션 레벨 풍부화 제약 (attention-level enrichment constraint), 그리고 더 어려운 이중 참조 단계에서 위치 대응 기반 누출을 목표로 하는 주파수 인식 RoPE 변조 (frequency-aware RoPE modulation) 전략이 그것입니다. 또한 우리는 스타일 유사도, 콘텐츠 보존, 미학 (aesthetics), 지시어 이행, 그리고 누출 거부 (leakage rejection)에 대한 평가를 포함하여 스타일 참조 및 이중 참조 생성을 모두 다루는 벤치마크를 도입합니다. 이 벤치마크는 스타일 불변 콘텐츠 정렬 점수 (style-invariant Content Alignment Score, CAS)를 포함하며, 생성 신뢰성과 누출 억제를 평가하기 위해 보정된 VLM 기반 거부 점수 (calibrated VLM-based Rejection Score)를 도입합니다. 광범위한 실험을 통해 우리의 모델이 스타일 정렬, 콘텐츠 보존, 그리고 누출 억제 사이에서 강력한 균형을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

FreeStyle: 커뮤니티 LoRA 마이닝을 통한 스타일-콘텐츠 이중 참조 생성의 자유로운 제어

요약

핵심 포인트

댓글