HuggingFace헤드라인2026. 05. 07. 20:01

SigLIP 2: 더 나은 다국어 비전 언어 인코더

요약

구글이 다국어 비전-언어 인코더인 SigLIP 2를 출시했습니다. 이 모델은 기존 SigLIP의 대조적 손실(contrastive loss)을 시그모이드 손실(sigmoid loss)로 확장하고, 위치 감지 및 로컬 세맨틱스 개선을 위한 여러 추가적인 훈련 목적을 통합하여 성능을 크게 향상시켰습니다. 특히, 동적 해상도 변형인 NaFlex를 도입하여 다양한 비율과 해상도의 다운스트림 작업에 유연하게 적용할 수 있는 것이 핵심입니다.

핵심 포인트

SigLIP 2는 기존 SigLIP 대비 제로샷 분류, 이미지-텍스트 검색 등 모든 핵심 기능에서 성능을 상회합니다.
모델은 위치 감지 능력을 부여하기 위해 텍스트 디코더를 추가하고, 이를 통해 지역 특이적인 캡션 예측 등의 기능을 수행할 수 있습니다.
Global-Local Loss와 Masked Prediction Loss 같은 자기 지도 학습 기법을 도입하여 이미지 표현의 세밀한 로컬 시맨틱스를 개선했습니다.
NaFlex 변형은 다양한 해상도 및 종횡비에 모델을 적응시켜 OCR이나 문서 이해 등 광범위한 다운스트림 작업에 활용할 수 있게 합니다.

오늘 구글은 새로운 다국어 비전-언어 인코더인 SigLIP 2 를 출시했습니다. 저자들은 SigLIP 의 훈련 목적 (sigmoid loss) 을 확장하여, 의미 이해, 로컬라이제이션, 그리고 밀도 높은 특징을 개선하기 위한 추가적인 목적을 더했습니다.

SigLIP 2 모델은 모든 모델 규모에서 핵심 기능인 제로샷 분류, 이미지-텍스트 검색, 그리고 비전 언어 모델 (VLM) 을 위해 시각적 표현을 추출할 때의 전달 성능에서 과연 기존 SigLIP 모델을 상회합니다.

그리고 꼭 필요한 것은 동적 해상도 (naflex) 변형입니다. 이는 비율과 해상도에 민감한 다운스트림 작업에 유용합니다.

모든 출시된 모델 목록은 다음과 같습니다:

비전 인코더는 간단합니다 - 이미지를 입력받아 표현으로 인코딩하고, 그 표현은 분류, 객체 탐지, 이미지 분할, 그리고 더 많은 비전 작업을 위한 다운스트림 작업에 사용됩니다. 연구자들은 항상 밀도 높은, 로컬리티 감지, 그리고 의미가 풍부한 시각적 표현을 추구합니다.

CLIP 과 ALIGN 은 첫 번째 예시로서, 공동 훈련을 통해 이미지 인코더와 텍스트 인코더를 연결했습니다. 이 접근법은 비전 모델을 훈련하는 새로운 방식을 열었습니다. SigLIP 는 이를 더 나아가 CLIP 의 대조적 손실 (contrastive loss) 을 sigmoid loss 로 교체하여 더 나은 인코더를 만들었습니다.

핵심은? 더 똑똑한 훈련 목적을 통해 우리는 더 구조화되고, 세밀하며 강력한 비전 인코더를 계속 구축합니다. SigLIP 2 는 바로 그 것, SigLIP 의 위에 적용된 정말 흥미롭고 똑똑한 훈련 목적들의 일련입니다.

우리는 이 블로그 포스트에서 새로운 것을 시도할 것입니다. 우리는 무엇이 새로고 어디에 있는지 말하기보다, 조금의 연습을 함께 진행하겠습니다. 우리는 SigLIP 로 시작하여 질문 (🤔 접두어) 과 답변 (새로운 제목) 을 통해 모든 업데이트를 서서히 다룹니다. 괜찮은가요?

우리는 패치 크기가 16이고 이미지 해상도가 256인 비전 인코더로 여정을 시작합니다. 우리는 훈련을 위해 네 가지 변형을 가지고 있습니다:

siglip2-base-patch16-256
siglip2-large-patch16-256
siglip2-so400m-patch16-256
siglip2-giant-opt-patch16-256

🤔 질문 1: 우리는 위치 감지와 로컬리티의 감각에 따라 더 나은 시각적 표현을 학습하기 위해 사용할 수 있는 (저 노력) 보조 훈련 목적은 무엇인가요?

우리는 디코더를 섞어 넣습니다. 이제 우리는 이미지 인코더, 텍스트 인코더, 그리고 텍스트 디코더 가 있습니다. 텍스트 디코더는 세 가지 목적을 가지고 있습니다:

전체적인 이미지 캡션 예측
특정 이미지 영역을 설명하는 캡션과 주어진 박스 좌표 예측 - 박스 좌표와 주어진 지역 특이한 캡션 예측

디코더는 비전 인코더에 추가 신호를 제공하여, 위치 감지 능력을 부여합니다. 이는 SigLIP 2 의 훈련 레시피의 첫 번째 개선입니다.

🤔 질문 2: 우리는 이미지 표현의 세밀한 로컬 semantics 를 어떻게 개선할 수 있나요?

우리는 이미지 표현의 세밀한 로컬 semantics 를 개선하기 위해 두 가지 핵심 훈련 목적을 도입합니다, Global-Local Loss 와 Masked Prediction Loss. 자기 감독 학습 문헌에서 영감을 받아, 우리는 자기 디스토illation 을 사용합니다. 모델을 스터디 (teacher) 로 사용하고, 같은 모델을 스튜던트 (student) 로 사용할 수 있습니다. 각 반복마다 스터디는 스튜던트의 파라미터의 이동 평균이 됩니다.

Global-Local Loss: 학생 네트워크는 훈련 이미지의 부분적 (로컬) 관점을 얻고, 전체 이미지에서 유도된 교사의 표현과 매칭하도록 훈련됩니다.Masked Prediction Loss: 학생 네트워크의 임베딩된 이미지 패치 중 50% 가 mask tokens 으로 마스킹됩니다. 학생은 마스킹된 위치에서 교사의 특징을 매칭해야 합니다.

이러한 목표는 비전 인코더가 공간적으로 인식할 수 있도록 가르치고 로컬 세マン틱스를 개선합니다. 저자들은 이 손실을 sigmoid 와 decoder loss 로 80% 의 훈련이 완료된 후에만 추가합니다. 이는 계산 비용을 절약하고 (추가 손실은 매우 비쌈) 인코더에 부정적인 영향을 주지 않기 위함입니다.

🤔 질문 3: 다른 해상도에 모델을 적응시키는 방법은 무엇인가요?
이미지 모델이 다양한 해상도와纵横比에 매우 민감하다는 것은 잘 알려진 사실입니다. 여기서는 이러한 모델을 다른 해상도와 패치 크기에 적응시키기 위해 두 가지 구별된 방법론을 활용할 수 있습니다.

고정 해상도 변형: 95% 훈련 체크포인트를 사용하여 위치 임베딩과 패치 임베딩을 리사이즈한 후, 요청된 (잠재적으로 더 큰) 해상도를 계속 훈련합니다.동적 해상도 변형: FlexiViT(서열 길이가 다른 입력을 사용함) 과 NaViT(원래纵横比에 따름) 에서 영감을 받아 NaFlex 변형을 만들 수 있습니다. 이는 흥미롭습니다. 왜냐하면 단일 모델을 OCR(작은纵横比 왜곡) 과 문서 이해 (적절한 해상도) 에 사용할 수 있기 때문입니다.

-naflex 접미사를 가진 모델들은 동적 해상도 변형입니다. 고정 해상도 모델은 기존 SiglipModel 클래스와 바로 사용할 수 있지만, naflex 변형을 사용하려면 Siglip2Model 을 사용해야 합니다. 파이프라인 API 를 사용할 때 자동으로 처리합니다!

이것은 SigLIP 에서 SigLIP 2 로의 진화의 끝입니다. 다음 섹션에서는 SigLIP 2 의 응용 프로그램을 살펴보겠습니다.

모델을 추론하는 것은 매우 간단합니다. 아래 코드를 복사하여 붙여넣고 무료 티어 Colab 노트북에서 추론을 실행할 수 있습니다 🚀

SigLIP 2 를 추론하려면 transformers 를 main 에서 또는 이 안정 브랜치에서 설치하세요:pip install git+https://github.com/huggingface/transformers@v4.49.0-SigLIP-2

여기서는 SigLIP 2 의 제로샷 분류 능력을 소개하기 위해 편리한 pipeline API 를 사용합니다.

from transformers import pipeline
ckpt = "google/siglip2-so400m-patch14-384"
pipe = pipeline(model=ckpt, task="zero-shot-image-classification")
...

출력을 시각화해 보겠습니다.

다음과 같이 이미지를 인코딩할 수도 있습니다:

import torch
from transformers import AutoModel, AutoProcessor
from transformers.image_utils import load_image
...

모든 SigLIP 2 모델이 공개된 표를 보면 SigLIP 과 두 가지 구별적인 변화가 있음을 알 수 있습니다:

SigLIP 2 는 동적 해상도를 위한 새로운 변형 (naflex) 을 가집니다.
SigLIP 2 는 giant(1B) 시리즈를 추가합니다.

SigLIP 2 의 평가 표는 SigLIP 과의 우월성을 입증합니다.

여기서는 SigLIP 1 과 SigLIP 2 의 제로샷 분류 결과를 비교할 수 있는 데모가 있습니다.

텍스트 정보에 정렬된 비전 인코더는 Vision Language Models (VLMs) 개발에서 점점 더 중요해지고 있습니다. VLM 을 구축하는 일반적인 접근 방식은 사전 훈련된 비전 인코더와 사전 훈련된 LLM 을 결합하고, 다양한 비전-언어 작업에 걸쳐 멀티모달 데이터를 사용하여 함께 훈련하는 것입니다.

시그립 (SigLIP) 가시 인코더 계열을 활용하는 VLM 의 대표적인 사례는 PaliGemma입니다. PaliGemma 의 능력을 더 깊이 이해하려면 PaliGemma 블로그 포스트를 참조할 수 있습니다. 이 기반을 바탕으로 최근 소개된 PaliGemma 2 는 시그립 (SigLIP) 을 고급 Gemma 2 LLM 과 통합하여 한 단계 더 발전시켰습니다. PaliGemma 와 유사한 환경에서 시그립 2 (SigLIP 2) 를 시그립 (SigLIP) 으로 교체해 보는 것은 매우 흥미로울 것이며, 해당 모델의 성능을 어떻게 발휘하는지 확인해 볼 수 있습니다.

이 블로그 포스트에 대한 피드백을 위해 Michael Tschannen (시그립 2 의 저자), Vaibhav Srivastav 과 Sayak Paul 을 감사드립니다. 또한 이 놀라운 오픈 소스 모델 계열을 공개한 Google 팀에게도 큰 감사를 표합니다.

특정 순서는 없으나 Pavel, Ross, Pablo, Pedro, Lysandre 와 Hugging Face 팀의 나머지 구성원들에게도 이 프로젝트에 대한 막대한 지원과 기여를 감사드립니다.

AI 자동 생성 콘텐츠

원문 바로가기

SigLIP 2: 더 나은 다국어 비전 언어 인코더

요약

핵심 포인트

댓글