arXiv논문2026. 04. 28. 14:52

Meta-CoT: 이미지 편집의 정교함과 일반화 능력 향상

요약

본 논문은 이미지 편집의 정교한 이해와 일반화 능력을 동시에 향상시키는 새로운 프레임워크인 Meta-CoT를 제안합니다. Meta-CoT는 단일 편집 작업을 '편집 작업', '타겟', '필요 이해 능력'이라는 세 가지 요소로 분해하는 패러다임을 사용하며, 이를 통해 모델의 작업 특이적 이해도를 높입니다. 또한, 이 프레임워크는 편집 작업을 다섯 가지 기본 메타 작업으로 추가 분해하여 소수의 훈련만으로도 다양한 미지의 편집 작업에 강력하게 일반화되는 능력을 입증했습니다.

핵심 포인트

Meta-CoT는 이미지 편집을 '작업', '타겟', '필요 이해 능력'의 세 요소로 분해하여 모델의 이해 정교함을 높입니다.
편집 작업을 다섯 가지 기본 메타 작업으로 추가 분해함으로써 강력한 일반화 능력을 달성합니다.
CoT-Editing Consistency Reward를 도입하여 CoT 추론 정보가 편집 과정에 정확하고 효과적으로 활용되도록 유도했습니다.
실험 결과, Meta-CoT는 21가지 편집 작업에서 평균 15.8%의 성능 향상을 보였으며, 소수 메타 작업으로 미지 작업에도 잘 일반화되었습니다.

통합 다중 모달 이해/생성 모델은 세련된 이해 (fine-grained understanding) 를 체인 오브 사운드 (Chain-of-Thought, CoT) 프로세스에 통합함으로써 개선된 이미지 편집 성능을 보여왔습니다. 그러나 여전히 탐구되지 않은 중요한 질문이 남아있습니다: 어떤 형태의 CoT 와 훈련 전략이 동시에 이해의 정교함 (understanding granularity) 과 일반화 (generalization) 를 향상시킬 수 있을까요? 이 문제를 해결하기 위해, 우리는 단일 이미지 편집 작업을 두 단계로 분해하는 패러다임인 Meta-CoT 를 제안합니다. 이는 두 가지 핵심 특성을 가집니다: (1) 분해 가능성 (Decomposability). 우리는 어떤 편집 의도든 (task, target, required understanding ability) 이라는 삼중항으로 표현될 수 있음을 관찰했습니다. 이를 영감받아 Meta-CoT 는 편집 작업과 타겟을 모두 분해하여 작업 특이적 CoT 를 생성하고 모든 타겟에 대한 편집 작업을 수행합니다. 이러한 분해는 모델의 편집 작업 이해 정교함을 향상시키고, 훈련 중 삼중항의 각 요소를 학습하도록 유도하여 편집 능력을 현저히 개선합니다. (2) 일반화 가능성 (Generalizability). 두 번째 분해 단계에서 우리는 편집 작업을 다섯 가지 기본 메타 작업 (meta-tasks) 으로 더 세분화합니다. 우리는 이 다섯 가지 메타 작업과 삼중항의 나머지 두 요소로 훈련하는 것이 다양한 미지의 편집 작업에 대해 강력한 일반화를 달성하기에 충분함을 발견했습니다. 모델의 편집 행동을 CoT 추론과 더 잘 맞추기 위해, 편집 중 CoT 정보를 더 정확하고 효과적으로 활용하도록 장려하는 CoT-Editing Consistency Reward 를 도입합니다. 실험 결과, 우리의 방법은 21 가지 편집 작업에서 전반적으로 15.8% 의 성능 향상을 달성했으며, 소수의 메타 작업으로만 훈련되어도 미지의 편집 작업에 효과적으로 일반화됩니다. 우리의 코드, 벤치마크, 및 모델은 https://shiyi-zh0408.github.io/projectpages/Meta-CoT/ 에서 공개되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Meta-CoT: 이미지 편집의 정교함과 일반화 능력 향상

요약

핵심 포인트

댓글