Moebius: 0.2B 이미지 인페인팅 모델로 10B급 성능 달성

요약

0.2B 파라미터 규모의 Moebius 이미지 인페인팅 모델에 대한 기술적 분석과 사용자 경험을 다룹니다. 모델의 효율성은 높으나, 인페인팅 영역의 질감 불일치, 낮은 해상도 제한, 새로운 객체 생성 능력 부족 등 실무 적용 시의 한계점을 지적합니다.

핵심 포인트

0.2B 모델임에도 높은 효율성을 보이나 10B급 성능에는 미치지 못함
인페인팅 영역이 주변 질감에 비해 지나치게 매끈하게 표현되는 문제 존재
512x512 해상도 제한으로 인해 다양한 비율의 실무 적용에 어려움
새로운 객체를 자연스럽게 장면 내에 통합하는 능력이 부족함

나도 정확히 같은 걸 해보려 했고(gpt 5.5 + code 사용), ONNX에서 모델 실행까지는 성공하지 못했음

잘했음. unet 가중치가 fp32던데, 혹시 fp16처럼 더 낮은 정밀도도 시도해 봤는지 궁금함

조금 써봤는데, 0.2B 모델치고는 매우 인상적이지만 10B 모델들과 맞먹는다고 설득되기는 어려움
자연 이미지에서는 꽤 괜찮게 동작했지만, 인페인팅된 영역이 주변보다 눈에 띄게 매끈했고 새로운 객체에는 매우 약했음. 출력도 512x512로 제한되어 실용성이 줄어듦

제공된 예시들이 실제 성능을 대표한다고 보는지, 아니면 체리픽된 것 같다고 보는지 궁금함

몇 년 전에 클라이언트용 인페인팅 프로젝트를 했음. 콘서트 프로모터용 배너 광고를 인페인팅해서 다양한 지면 크기의 광고를 쉽게 만들려는 작업이었고, 유명 가수 몇 명의 크리스마스 테마 광고를 맡았음
가장 이상했던 건 인페인팅 도구가 이미지에 이상한 사람들을 추가하던 때였음. 가수가 반짝이 장식과 빨간색으로 꾸며져 있었는데, 모델이 실크해트를 쓴 심술궂은 노인을 추가했음. “소름 끼치는 노인 추가” 버튼을 누른 기억은 없음
당시 백엔드는 Stable Diffusion이었고 Amazon을 포함한 여러 모델 호스팅 서비스를 거쳤는데, 입력 이미지 요구사항이 제각각이라 매우 복잡했음. 어떤 곳은 200x60 배너 같은 비율을 맞출 수 없어 실패했고, 어떤 곳은 입력 전에 리사이즈해야 해서 처음부터 낮은 해상도의 이미지를 넣게 됐음. 쓰레기를 넣으면 쓰레기가 나옴
결국 사전 제작 작업이 많이 필요했고, 클라이언트는 내 시도물을 실제로 쓰지 않았음

가수가 반짝이와 빨간색으로 꾸며져 있었는데 모델이 실크해트를 쓴 심술궂은 노인을 추가했다면, Dickens의 A Christmas Carol을 떠올리게 함
영국에는 크리스마스 행사 때 사람들이 너무 들뜨지 않도록 배경에 Scrooge 같은 인물을 세워둬야 한다는 조례가 있는 게 분명함

그 시절 커뮤니티 제작 모델들, 병합 모델이나 파인튜닝 모델들은 전부 과훈련되어 있었고 초상화와 정면 샷에 최적화돼 있었음. 뭐든 사람으로 만들려고 했음
얼굴 인페인팅도 여러 도구를 둘러야 겨우 할 만한 작업인데, 그 외의 것을 인페인팅하는 건 거의 불가능했음. 이런 모델들은 객체를 장면 안에 자연스럽게 맞춰 넣는 데도 특히 약했음. 허술한 목걸이나 벨트 정도는 어찌어찌 가능하지만, 새 객체를 장면에 넣는 순간 끝없이 다양한 방식으로 실패함
해상도도 512x512에서 훨씬 잘 동작하고, 더 크게 벗어나면 문제가 늘어남
배너 광고를 인페인팅하려 했다면 심하게 왜곡됐을 가능성이 큼. 그 모델들은 글꼴을 다루지 못하고 픽셀 단위로 정확한 전사에도 약함. 당시 현실적으로 가능한 방법은 배너 광고를 수동으로 넣고 경계 부분만 AI로 고치는 것이었을 듯함. 물론 어느 정도 미술 감각은 필요함
이미지 두 장만 넣고 모델이 알아서 하길 기대했다면, 시도는 대담했지만 불가능한 작업이었음

그건 SD 같은 작은 모델이 매우 특정한 해상도로 학습됐기 때문임. 더 고급 모델들은 더 높은 품질이나 더 다양한 해상도 집합으로 학습됨
고품질 모델로 낮은 해상도 이미지를 만들면 실제로는 훨씬 큰 이미지에서 일부를 잘라 출력하는 것처럼 느껴짐. 여러 시간 실험해 본 체감상 그렇고, 큰 모델에서 어떤 물체를 가운데 두려고 해도 가운데에 잘 안 보임. 내 GPU가 감당할 수 있는 것도 한계가 있음

인페인팅이 뭔지 모르겠음. 댓글에서는 다들 이 용어를 아는 것 같은데, 링크된 페이지에서는 설명을 못 봤음

시각화 이미지를 클릭하면 실제 동작을 볼 수 있음. 보라색 영역은 사용자가 시스템에 인페인팅하라고 표시한 부분이고, 이미지를 클릭하면 결과가 보임
기본적으로 모델이 보라색이 아닌 영역의 맥락을 보고 보라색 영역에 무엇이 가장 어울릴지 판단해 이미지의 일부를 다시 그림. 객체 제거에 자주 쓰이지만, 예시에서 보이듯 다른 작업도 가능함

별로 좋지 않음. 인페인팅된 영역이 늘 그렇듯 자연 사진의 세밀하고 고주파적인 질감에 비해 너무 매끈함
썸네일에서 뭔가를 지우는 데 겨우 쓸 만한 정도임

이것도 그렇고 예시들도 체리픽임. 자연 사진에서 고압선을 지운 예시는 특히 안 좋음. 지운 자리에 띠가 그대로 보임
몇 년 전 Photoshop의 기본 복원 도구도 비슷한 수준으로 처리할 수 있음

만화 번역용으로 이런 모델이 있었으면 좋겠음. 지금 애니메이션과 만화 쪽의 가벼운 인페인팅 모델은 LaMa가 사실상 기본인 것 같은데, 이미 몇 년 된 모델이라 개선 여지가 있어 보임

아들을 위해 애니메이션 프로그램(궁금하면 Leapfrog Letter Factory)을 아웃페인팅한 뒤 업스케일하려고 작업 중인데, 로컬에서 하기가 꽤 어려웠음
이 모델을 다시 학습하거나 파인튜닝할 수 있을지 궁금함. “전문가”를 만든다고 하던데, 그 전문가가 다양한 캐릭터 번역에 대해 더 잘 이해할 수도 있지 않을까 싶음

이런 게 쓸모 있는 AI임. 가능해지는 사용 사례가 정말 많음

맞음, 그래서 답답함. 로컬에서 돌아가고 특정 목적에 맞춰져 있으며 한 가지 일을 안정적으로 잘하는 모델이 진짜 차이를 만들 수 있는 사용 사례가 많음
하지만 놀라운 먼지 제거, 완벽한 장면 분할 같은 걸 위해 누가 10억 달러를 투자하지는 않을 것임
대신 클라우드에 업로드한 뒤, 거대한 멀티모달 프런티어 모델에게 내가 원하는 일만 해달라고 정중히 부탁해야 하는 구조가 됨

AI 자동 생성 콘텐츠

원문 바로가기