PaliGemma 2 Mix - 구글의 새로운 지시 명령 시각 언어 모델
요약
구글이 PaliGemma 2 Mix라는 새로운 시각 언어 모델(VLM)을 출시했으며, 이는 OCR, 긴/짧은 캡션 생성 등 다양한 시각 작업에 맞게 미세 조정되었습니다. 이 모델은 단순히 채팅 기능을 제공하기보다, 하위 작업에서 더 잘 학습할 수 있도록 설계된 사전 학습 체크포인트를 제공하는 데 중점을 둡니다. 사용자는 개방형 프롬프트와 특정 작업 접두사(예: `caption`, `ocr`, `answer`)를 사용하여 이미지 질문 답변, 문서 이해, 객체 감지 등 다양한 전문 작업을 수행할 수 있습니다.
핵심 포인트
- PaliGemma 2 Mix는 OCR, 캡션 생성, 질의응답 등 광범위한 시각 언어 작업에 특화된 미세 조정 모델입니다.
- 이 모델 계열은 범용 채팅 기능보다는 하류(downstream) 작업을 위한 강력한 사전 학습 기반을 제공하는 데 초점을 맞추고 있습니다.
- 사용자는 개방형 프롬프트와 함께 `caption`, `ocr`, `answer` 등의 작업 접두사를 사용하여 다양한 전문 기능을 활성화할 수 있습니다.
- 모델은 3B, 10B, 28B의 크기와 224x224부터 896x896까지 다양한 해상도로 제공되어 유연성이 높습니다.
지난 12 월에 구글은 PaliGemma 2 를 출시했습니다: SigLIP 과 Gemma 2 를 기반으로 한 새로운 사전 학습 (pt) PaliGemma 시각 언어 모델 (VLM) 가족입니다. 이 모델들은 세 가지 다른 크기 (3B, 10B, 28B) 와 세 가지 다른 해상도 (224x224, 448x448, 896x896) 가 있습니다.
오늘 구글은 PaliGemma 2 mix 를 출시합니다: OCR, 긴 캡션 및 짧은 캡션 등 다양한 시각 언어 작업에 대해 미세 조정된 모델입니다.
PaliGemma 2 사전 학습 (pt) 변형은 주어진 작업에 대해 전달할 수 있는 훌륭한 시각 언어 모델입니다. 모든 pt 체크포인트는 하류 작업에서 미세 조정하기 위해 설계되어 해당 목적으로 출시되었습니다.
Mix 모델은 사전 학습된 체크포인트를 하류 작업에서 미세 조정할 때 얻을 수 있는 성능의 빠른 아이디어를 제공합니다. PaliGemma 모델 가족의 주요 목적은 다양한 채팅 모델을 제공하는 것이 아니라, 하류 작업에서 더 잘 학습할 수 있는 사전 학습 모델을 제공하는 것입니다. Mix 모델은 pt 모델이 학술 데이터셋에 대해 미세 조정될 때 어떻게 수행되는지에 대한 좋은 신호를 제공합니다.
PaliGemma 2 에 대해 자세히 읽으려면 이 블로그 포스트를 참조하세요.
모든 mix 모델과 데모는 이 컬렉션에서 찾을 수 있습니다.
| Parameter Count | Framework | Resolution |
|---|---|---|
| 3B | HF Transformers | 224 |
| ... |
- PaliGemma 2 Mix Models
- Comparing PaliGemma 2 Mix Variants
- Inference and Fine-tuning using Transformers
- Demo
- Read More
PaliGemma 2 mix 모델은 다양한 작업을 수행할 수 있습니다. 우리는 하위 작업에 따라 다음과 같이 분류할 수 있습니다.
일반적인 시각 언어 관련 작업: 이미지 질문 답변, 이미지 참조
문서 이해: 인포그래픽, 차트 및 다이어그램의 이미지 질문 답변, 다이어그램 이해
이미지 내 텍스트 인식: 텍스트 감지, 텍스트가 있는 이미지를 캡션화하기, 텍스트가 있는 이미지에서 이미지 질문 답변
위치 관련 작업: 객체 감지, 이미지 분할
이 하위 작업 목록은 필수적이지 않으며, PaliGemma 2 논문에서 전체 작업 목록에 대한 자세한 정보를 얻을 수 있습니다.
PaliGemma 2 mix 모델을 프롬프트할 때 개방형 프롬프트를 사용할 수 있습니다. 이전 PaliGemma 사전 학습 모델의 경우, 주어진 언어에서 수행하려는 작업에 따라 프롬프트에 작업 접두사를 추가해야 했습니다. 여전히 작동하지만 개방형 프롬프트는 더 나은 성능을 제공합니다. 작업 접두사가 있는 프롬프트는 다음과 같습니다.
- "caption {lang}": COCO 와 같은 짧은 캡션
- "describe {lang}": 더 긴, 설명적인 캡션
- "ocr": 광학 문자 인식
- "answer {lang} {question}": 이미지 내용에 대한 질문 답변
- "question {lang} {answer}": 주어진 답변에 대한 질문 생성
객체 감지와 이미지 분할은 작업 접두사만으로 작동하는 두 가지 작업뿐입니다. 프롬프트는 다음과 같습니다.
- "detect {object description}": 이미지에 나열된 객체를 위치시키고 해당 객체에 대한 경계 박스를 반환합니다.
- "segment {object description}; {object description}": 이미지에 있는 객체가 차지하는 영역을 찾기 위해 해당 객체로 이미지 분할을 생성합니다.
즉시 시작하고 싶다면 이 블로그 섹션으로 이동하거나 데모를 시도하세요.
이 섹션에서는 언급된 기능과 PaliGemma 2 mix 가 수행하는 작업을 검토하고, 몇 가지 작업에서 다른 크기 및 해상도의 다양한 변형과 비교합니다. 여기서는 모델의 몇 가지 in-the-wild 예제에 대해 테스트합니다.
| 입력 이미지 | 입력 프롬프트 | 3B/448 응답 | 10B/448 응답 |
|---|---|---|---|
| 얼마나 많은 과일이 있나요? | |||
| 5 ✅ | 5 ✅ |
이미지를 자세히 묘사해 보세요.
|
一群人走在街上,背对镜头。街道两旁种着一棵高大的绿叶树、一棵棕榈树和人行道旁的一道白色围栏。远处可以看到一座带有大圆屋顶的大型粉色建筑和一座带有穹顶屋顶的大型粉色建筑。一个穿着黑色衬衫、背着灰色包的男人正在行走,经过停在围栏附近的一辆白色摩托车。一个穿着红色衬衫、背着黑色背包的男人站在路边的食品推车旁边。食品推车停在街道一侧。一个穿着蓝色衬衫、背着白色包的男人走在人行道上。路灯是黑色的。天空是蓝色的。✅
一群人走在街上,背对镜头。一座尖顶的高楼和一座大型粉白相间的建筑主宰着天际线。一位穿黑色连衣裙的女士和一位穿黑色裤子的男士并肩行走,而一位穿红色衬衫的男士和一位穿蓝色衬衫的男士走在他们身后。一辆摩托车停在围栏旁,一辆踏板车停在人行道上。这个人正在走路,这辆摩托车由一位穿白色衬衫的男士驾驶。这位男士穿着红色衬衫和黑色裤子,穿蓝色衬衫的人正骑着踏板车。杆子上的标志可见,这个人背着背包。✅
| 입력 이미지 | 입력 프롬프트 | 3B/448 응답 | 10B/448 응답 |
|---|---|---|
| 해상도 민감한 작업에서 어떤 변형이 가장 좋나요?
|
448px 를 먼저 224px 로 재조정 | 448px ✅ |
2023 년 프랑스의 목표 배출량은 얼마인가요?
|
20 ✅ | 20 ✅ |
우리는 PaliGemma 2 mix 변형들의 지역화 관련 능력을 평가했습니다. {대상 설명};{다른 대상 설명}이라는 프롬프트를 사용하여 관심 있는 다른 대상을 PaliGemma 는 감지할 수 있습니다. 여기서는 "새"와 같은 짧은 클래스뿐만 아니라 "목에 새"와 같은 표현도 가능합니다.
아래에는 448x448 픽셀의 고정 해상도로 다양한 변형의 감지와 분할 출력이 있습니다. 시각화를 위해 관심 있는 대상을 확대했습니다.
입력 이미지 | 입력 프롬프트 | 3B/448 응답 | 10B/448 응답
|---|---|---|---|
| 이 티켓은 언제 발행되었고 얼마를 지불했나요? |
| 26-05-2023 21:52 17.00 ✅ |
| 26-05-2023 17.00 ✅ | |
텍스트 읽기
FRIDAY, DEC 20th
NEW OFFICE PARTY
COCKTAIL MENU -
OFFICE MARTINI
vodka fraise des bois - jus de framboise - liqueur de fleur de sureau - fleur wild strawberry vodka - raspberry puree - elderflower liquor - flower
DIFFUSERS SUNRISE
tequila - mandarine impériale - jus d'orange sanguine - cointreau - cherry bitter tequila - tangerine liquor - blood orange juice - cointreau - cherry bitter
gin infused à la mangue rôtie - citronnelle, kiwi vert & jaune - citron - poivre blanc roasted mango infused gin - lemongrass - green & yellow kiwi, lemon - white pepper
TRANSFORMERS TWIST
pâte crème de cerise - caramel jamplémousse - bananas
PERUVIAN PEFT
pêches - cherry liquor - grapefruit cordial - pineapple ✅ | FRIDAY, DEC 20th NEW OFFICE PARTY COCKTAIL MENU - OFFICE MARTINI vodka fraise des bois - jus de framboise - liqueur de fleur de bureau - fleur wild strawberry vodka - raspberry puree - elderflower liqueur - flower DIFFUSERS SUN-HISE tequila - mandarine impériale - jus d'orange sanguine - cointreau - cherry bitter tequila - tangerine liquor - blood orange juice - cointreau - cherry bitter TRANSFORMERS TWIST gin infused à la mangue rôtie - citron vert & jaune - citron - poivre blanc roasted mango infused gin - lemongrass - green & yellow kiwi lemon - white pepper PERUVIAN PEFT piéce - eau de cèdre - eau de pamplemousse - ananas piece - cherry liquor - grapefruit vodka - pineapple ✅
transformers 를 사용하여 PaliGemma 2 혼합 모델을 사용할 수 있습니다.
from transformers import (
PaliGemmaProcessor,
PaliGemmaForConditionalGeneration,
...
PaliGemma 2 파인튜닝에 대한 심층 튜토리얼이 있습니다. 동일한 노트북을 사용하여 혼합 체크포인트도 파인튜닝할 수 있습니다.
10B 모델과 448x448 해상도의 데모를 출시합니다. 아래에서 실험하거나 이 링크의 앱으로 이동하세요.
PaliGemma 모델에 대해 더 읽기: 아래에서 확인하세요.
- 블로그: PaliGemma – Google 의 최첨단 오픈 비전 언어 모델
- 블로그: Welcome PaliGemma 2 – Google 의 새로운 비전 언어 모델
- PaliGemma 2 기술 보고서
- PaliGemma 파인튜닝 튜토리얼
- PaliGemma 2 혼합 모델 출시 컬렉션
- PaliGemma 2 출시 컬렉션
- 데모 실행
이 블로그 포스트 검토를 위해 Sayak Paul 과 Vaibhav Srivastav 에 감사드립니다. Google 팀이 이 놀라운, 오픈 모델 가족을 출시해 주셔서 감사합니다.
transformers 에 모델을 통합해 준 Pablo Montal 보에 큰 감사를 표하며, 검토, 테스트, 병합을 신속하게 수행한 Lysandre, Raushan, Arthur, Yih-Dar 및 나머지 팀원들에게도 감사드립니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기