arXiv논문2026. 05. 22. 11:20

S2ED: 일관성 인지 스토리 삽화를 위한 스토리에서 실행 가능한 설명으로의 변환

요약

S2ED는 다중 프레임 스토리 삽화의 일관성을 유지하기 위해 스토리를 실행 가능한 설명 시퀀스로 변환하는 프레임워크입니다. 별도의 학습 없이 세 가지 에이전트를 통해 캐릭터 정체성과 공간적/정서적 단서를 관리하여 장기적 일관성을 확보합니다.

핵심 포인트

학습이 필요 없는 모델 불가지론적 프롬프트 계층 프레임워크 제안
세 가지 에이전트를 통한 서사 분할 및 캐릭터 속성 고정
프롬프트 기반 상태 전파로 생성기 재학습 없이 드리프트 수정 가능
기존 프롬프팅 및 참조 학습 방식 대비 높은 시퀀스 일관성 입증

다중 프레임 스토리 삽화(Multi-frame story illustration)는 단일 이미지 텍ext-to-image 생성(text-to-image generation)을 넘어, 서사 분해(narrative decomposition)와 프레임 전반에 걸친 지속적인 캐릭터 정체성, 레이아웃(layout), 정서(affect)를 포함하는 장기적 일관성(long-horizon coherence)을 요구합니다. 우리는 전체 스토리를 더 일관된 렌더링을 위해 명시적이고 편집 가능한 실행 가능한 설명(executable descriptions)의 시퀀스로 변환하는, 별도의 학습이 필요 없는(training-free) 모델 불가지론적(model-agnostic) 프롬프트 계층 프레임워크인 S2ED(Story-to-Executable Descriptions)를 제안합니다. S2ED는 세 가지 에이전트(agent)를 조정하여 서사를 분할하고, 표준 캐릭터 속성(canonical character attributes)을 고정하며, 공간적 및 정서적 단서(spatial and affective cues)를 풍부하게 하여, 해석 가능한 프롬프트 기반 상태 전파(prompt-carried state propagation)와 생성기를 재학습하지 않고도 드리프트(drift)를 수정할 수 있는 로컬 편집(local edits)을 가능하게 합니다. Flintstones 및 Shakoo Maku에 대한 실험 결과, S2ED는 자동화된 지표(automatic metrics)와 인간의 판단(human judgments) 모두에서 강력한 프롬프팅(prompting), 대규모 모델 계획(large-model planning), 그리고 참조 학습 기반 방식(reference training-based method)보다 시퀀스 수준의 일관성(sequence-level consistency)과 캐릭터 충실도(character fidelity)를 향상시킴을 보여주었습니다. 또한 우리는 보충 영상과 함께 어린이용 삽화 동화책을 위한 엔드 투 엔드(end-to-end) 스토리-투-스토리북(story-to-storybook) 시스템에 S2ED를 배포하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

S2ED: 일관성 인지 스토리 삽화를 위한 스토리에서 실행 가능한 설명으로의 변환

요약

핵심 포인트

댓글