캐릭터 시트 입력을 사용하는 오픈 웨이트 및 클로즈드 모델 비교 테스트
요약
본 기사는 캐릭터 시트(Character Sheet) 입력을 활용하여 오픈 웨이트 및 클로즈드 모델의 이미지 생성 성능을 비교 테스트한 결과를 다룹니다. 사용된 프롬프트는 매우 상세하며, 특정 애니메이션 스타일과 구도, 조명 설정을 요구하고 있습니다. 이 테스트를 통해 다양한 AI 모델들이 복잡하고 구조화된 캐릭터 묘사(캐릭터 시트)와 영화적 연출 지시사항을 얼마나 정확하게 이해하고 구현하는지 비교 분석할 수 있습니다.
핵심 포인트
- 캐릭터 시트를 활용한 프롬프트 입력은 이미지 생성의 일관성과 디테일을 높이는 효과적인 방법이다.
- 오픈 웨이트 및 클로즈드 모델 모두 복잡한 장면 연출과 캐릭터 묘사에서 성능을 비교할 수 있다.
- 성공적인 결과물을 위해서는 구체적인 스타일(예: 'hand-painted concept-art textures', 'animated feature key art')과 카메라/조명 지시가 필수적이다.
이제 캐릭터 시트 입력과 함께 작동하는 오픈 웨이트 모델을 사용할 수 있게 되면서, 제가 접근 가능한 오픈 및 클로즈드 모델을 통해 비교 테스트를 진행했습니다. 이미지 스택 끝에 사용된 3 개의 캐릭터 시트의 예가 있습니다. 사용한 텍스트 프롬프트와 참조 레이트는 다음과 같습니다:
A polished stylized 3D animated cinematic movie still inside a grimy convenience store, rendered like high-end animated feature key art with hand-painted concept-art textures and painterly PBR materials, not photoreal photography. Unit Snuggles, a heavy-set orange-and-cream anthropomorphic tomcat, stands in the left third of the wide 16:9 frame with a big fluffy belly, sharp confident eyes, tan muzzle, curled striped tail, maroon short-sleeve tactical shirt, modular pouch rig, back harness, fingerless gloved paws, knee pads, battered boots, and a spiral insignia patch. A faint neon pink aura-mana glow licks around his ears and fur as he grips a custom black scoped rifle with both paws, the barrel aimed toward the two men on the right but kept just off-center for clear dramatic readability.
On the right, a heavy bearded man with a round face, dark swept hair, full brown beard, black T-shirt, blue suspenders, cuffed dark jeans, and brown shoes raises both hands high, his wide worried eyes and forced nervous smile clearly visible. Beside him stands a fit blond man with styled tousled hair, light stubble, faded olive T-shirt, loose American-flag pants split into stars and stripes, sneakers, and a utility pouch at his hip, his confident smirk replaced by anxious raised brows and open palms. The foreground has a knocked-over basket, spilled snack bags, and a crushed soda cup. The midground shelves are packed with candy bars, dusty cereal boxes, cheap sunglasses, and lottery signs. In the background, refrigerator doors glow blue-white behind fogged glass, with a handwritten sign behind the counter reading "NO MASKS, NO MAGIC, NO REFUNDS" and a security camera dangling by one wire.
Use a virtual 32mm cinema lens at eye level with a slight low-angle tension, giving the cat heroic weight while keeping the men trapped against the right aisle. Fluorescent ceiling strips lead diagonally from the left foreground toward the right side of the frame, creating strong leading lines and layered depth. The lighting is motivated by sickly green fluorescent tubes and freezer-blue refrigerator light, with soft pink rim light from the cat's aura catching fur edges, rifle metal, glossy tile, and scuffed plastic. Add subtle negative fill on the men's shadow sides, soft volumetric haze in the aisle, controlled bloom around highlights, clean exaggerated facial expressions, crisp silhouettes, visible fabric weave, worn leather, scratched plastic edges, lifted cool shadows, warm orange fur contrast, fine animated-film grain, ultra-clean high-resolution production keyframe.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기