본문으로 건너뛰기

© 2026 Molayo

r/StableDiffusion분석2026. 05. 24. 10:51

Microsoft Lens 첫 테스트: 꽤 괜찮네요! ComfyUI 네이티브 지원 병합 예정

요약

Microsoft Lens 모델이 ComfyUI에 네이티브로 지원될 예정입니다. JSON 프롬프트 형식을 활용하여 정교한 이미지 생성이 가능하며, 다양한 해상도와 종횡비를 지원합니다.

핵심 포인트

  • ComfyUI 네이티브 지원을 위한 PR 진행 중
  • JSON 구조의 프롬프트를 통한 정교한 제어 가능
  • 기본 해상도 1024 및 1440 지원
  • 다양한 종횡비에 최적화된 해상도 제공

모델 가중치 (Model weights): https://huggingface.co/Comfy-Org/Lens
PR: https://github.com/Comfy-Org/ComfyUI/pull/14077

서두르고 계신다면 머지 풀 리퀘스트 (merge pull request)를 git으로 가져와야 합니다:

git fetch origin pull/14077/head:pr-14077
git checkout pr-14077

지원되는 해상도 (가로 × 세로):

기본 해상도 (Base resolution) = 1024

종횡비 (Aspect Ratio)해상도 (가로 × 세로)
1:2736 × 1472
...
기본 해상도 (Base resolution) = 1440 (기본값)
종횡비 (Aspect Ratio)해상도 (가로 × 세로)
1:21040 × 2080
...

JSON 프롬프트 (JSON prompts)와 함께 사용하면 꽤 잘 작동합니다. 제가 가지고 있던 형편없는 프롬프트들을 몇 개 사용해 보았습니다.

예시 프롬프트:

{
  "language": "en",
  "main_subject": {
    "description": "뚜렷한 흑백 얼굴 줄무늬가 있는 의인화된 유럽 오소리로, 빛바랜 네이비 블루 오버사이즈 후드티와 헐렁한 코듀로이 팬츠를 입고 있습니다. 낡은 빈백 의자에 깊숙이 몸을 파묻고 강한 집중력을 발휘하며 Super Nintendo (SNES) 컨트롤러를 잡고 있습니다. 오소리의 발이 바지 밑단 밖으로 삐져나와 있습니다.",
    "count": 1,
    "position": "프레임 중앙, 낮은 각도에서 앉아 있는 모습"
  },
  "secondary_elements": [
    {
      "description": "픽셀화된 16비트 게임(예: Street Fighter II)을 보여주는 빛나는 CRT 텔레비전.",
      "relation_to_main": "오소리 앞에 위치하며 빛을 제공함"
    },
    {
      "description": "샤기 카펫 위에 흩어져 있는 빈 탄산음료 캔, 과자 봉지, 그리고 게임 카트리지.",
      "relation_to_main": "빈백 주변을 둘러싸고 있음"
    }
  ],
  "environment": {
    "description": "나무 패널 벽이 있는 어질러진 지하실. 벽에는 밴드 포스터(Nirvana, Pearl Jam)가 테이프로 붙어 있습니다.

방은 TV와 단 하나의 플로어 램프(floor lamp)에 의해 어둡게 밝혀져 있습니다.",
"background_style": "어질러진 가정용 인테리어 (cluttered domestic interior)"
},
"composition": "스냅샷 (candid snapshot), 약간은 무질서한 프레이밍 (slightly messy framing)",
"style": {
"medium": "사진 (photograph)",
"artist_or_reference": "1990년대 아마추어 필름 사진 (1990s amateur film photography), 스냅샷 미학 (snapshot aesthetic)",
"aesthetic_qualities": [
"입자감이 있는 (grainy)",
"로파이 (lo-fi)",
"플래시 조명을 받은 (flash-lit)",
"향수를 불러일으키는 (nostalgic)",
"그란지 (grunge)"
]
},
"photographic_details": {
"lighting": "거친 그림자를 만들어내는 CRT 광원과 혼합된 카메라 직사 플래시 (direct on-camera flash mixed with CRT glow)",
"camera_shot": "미디엄 샷 (medium shot)",
"lens_and_film": "35mm 필름 똑딱이 카메라 (35mm film point-and-shoot), 높은 ISO 입자감 (high ISO grain), 낮은 색 재현력 (poor color rendition)"
},
"text_elements": [
{
"text": "'93",
"language": "en",
"placement": "필름에 각인된 우측 하단 모서리 (bottom right corner, burnt into the film)",
"style": "오렌지색 디지털 날짜 스탬프 글꼴 (orange digital date stamp font)"
}
],
"aspect_ratio": "4:3",
"negative_prompt": "고해상도 (high definition), 현대 기술 (modern technology), 평면 TV (flatscreen TV), 깨끗한 방 (clean room), 밝은 스튜디오 조명 (bright studio lighting), CGI 털 (CGI fur)"
}

AI 자동 생성 콘텐츠

본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0