LASA: 오픈 어휘(Open-Vocabulary) 장면 스케치 시맨틱 세그멘테이션을 위한 약지도 학습 방법론
요약
LASA는 스케치 이미지의 시맨틱 세그멘테이션을 위해 제안된 약지도 학습 방법론입니다. Vision Transformer의 레이어별 어텐션 맵을 집계하여 구조적 정보를 활용함으로써, 질감과 색상이 부족한 스케치에서도 높은 정확도를 구현합니다.
핵심 포인트
- 레이어별 어텐션 맵의 상호 보완적 공간 단서 활용
- 얕은 레이어의 전역 구조와 깊은 레이어의 국소 특징 결합
- LASA 프레임워크를 통한 계층적 시맨틱 정렬 가이드
- 기존 약지도 학습 베이스라인 대비 mIoU 대폭 개선
오픈 어휘 (Open-vocabulary) 장면 스케치 시맨틱 세그멘테이션 (semantic segmentation)은 학습 과정에서 픽셀 수준의 주석 (annotation)에 의존하지 않고, 추론 시점에 지정된 유연한 카테고리 어휘를 기반으로 희소한 선화 (line drawings)에 조밀한 시맨틱 레이블을 할당하는 것을 목표로 합니다. 자연 이미지와 달리, 스케치는 질감과 색상 단서가 부족하여 시맨틱 이해가 스트로크 레이아웃 (stroke layout) 및 공간적 구성에 크게 의존하며, 이는 단일 레이어의 비전-언어 (vision-language) 특징을 본질적으로 불안정하게 만드는 도전 과제가 됩니다. 우리의 핵심 관찰 결과는 서로 다른 Vision Transformer 레이어의 어텐션 맵 (attention maps)이 상호 보완적인 공간적 단서를 인코딩한다는 것입니다. 즉, 얕은 레이어는 전역적인 구조적 레이아웃을 포착하는 반면, 깊은 레이어는 국소적인 스트로크 교차점과 객체 부위에 집중합니다. 이는 레이어 간 집계 (cross-layer aggregation)가 단일 레이어보다 더 강력한 구조적 사전 정보 (structural prior)를 제공함을 시사합니다. 이러한 통찰을 활용하여, 우리는 약지도 학습 (weak supervision) 하에서 계층적 시맨틱 정렬을 가이드하고 추론 중에 예측을 정제하기 위해 멀티 레이어 어텐션을 집계하는 레이어별 누적 구조적 어텐션 (Layer-wise Accumulated Structural Attention, LASA) 기반의 구조 인식 프레임워크를 제안합니다. FS-COCO, SFSD, FrISS에 대한 실험 결과, LASA는 기존의 약지도 학습 베이스라인 대비 mIoU를 각각 $+3.43$, $+8.01$, $+15.74$ 개선하였으며, 세그멘테이션 정확도와 공간적 일관성 모두에서 일관된 성능 향상을 입증했습니다. 우리의 소스 코드는 공개될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기