오픈 소스 이미지 생성 모델이 폐쇄형 소스 품질에 더 가까워지고 있다는 사실
요약
최신 오픈 소스 이미지 생성 모델이 폐쇄형 API와의 성능 격차를 빠르게 좁히고 있다는 벤치마크 결과를 공유합니다. 특히 구성적 제어, 텍스트 렌더링, 생성 속도 측면에서 오픈 모델의 실질적인 경쟁력을 분석합니다.
핵심 포인트
- 오픈 모델의 구성적 제어 능력이 유료 API 수준에 근접함
- 최신 아키텍처는 이미지 내 텍스트 렌더링 성능이 크게 향상됨
- 소비자용 GPU에서도 반복 작업이 가능한 수준의 생성 속도 확보
- 구조화된 프롬프팅은 프로덕션 파이프라인 구축에 오히려 유리함
저는 제 워크플로우의 일환으로 생성형 이미지 모델(generative image models)에 대한 평가를 수행하며, 주로 다양한 아키텍처(architectures) 간의 일관성(coherence), 프롬프트 준수(prompt adherence), 그리고 구성적 정확도(compositional accuracy)를 비교합니다. 이곳의 의견은 오픈 모델(open models)이 여전히 폐쇄형 API(closed APIs)보다 한 세대 뒤처져 있다는 것이 중론인 것 같습니다. 하지만 최근 제가 수행한 벤치마크(benchmarks)에 따르면, 그 격차는 사람들이 생각하는 것보다 훨씬 작습니다. 특히 구성적 제어(compositional control) 측면에서, 최신 오픈 체크포인트(open checkpoints)는 제가 테스트한 유료 엔드포인트(endpoints)만큼이나 공간적 관계를 포함한 다중 객체 장면(multi-object scenes)을 안정적으로 처리합니다. 완벽하지는 않지만, 실패 모드(failure modes)가 비슷할 정도로 충분히 가깝습니다. 저를 놀라게 했던 점은 이미지 내 텍스트 렌더링(text rendering)이었는데, 이전의 오픈 모델에서는 재앙 수준이었습니다. 최근의 아키텍처들은 짧은 문자열에 대해 실제로 약 70-80%의 확률로 정확하게 구현해냅니다. 생성 속도(generation speed) 또한 또 다른 오해입니다. 사람들은 추론 시간(inference time)에 대해 불평하지만, 저는 단일 소비자용 GPU(consumer GPU)에서 2MP 출력을 2분 이내에 얻고 있습니다. 해상도(resolution)와 스텝 수(step count)를 낮추면 30초면 충분합니다. 반복 작업(iteration)을 하기에는 괜찮은 수준입니다. 구조화된 프롬프팅(structured prompting)에 대한 논쟁도 설득력이 떨어집니다. 모두가 명시적인 장면 제어(scene control)를 갖는 것을 단점인 것처럼 행동하지만, 그것은 말 그대로 프로덕션 파이프라인(production pipelines)이 필요로 하는 것입니다. 비구조화된 텍스트 프롬프트(unstructured text prompts)가 임시방편(hack)인 것이지, 그 반대가 아닙니다. 이 모델들은 커뮤니티 최적화(community optimizations), 파인튜닝(fine-tuning), 커스텀 파이프라인(custom pipelines) 없이 출시됩니다. 베이스라인(baseline) 자체가 이미 경쟁력이 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기