
OWL-ViT(Open Vocabulary Object Detection 모델) 프롬프트의 특징
요약
OWL-ViT 모델을 활용한 객체 탐지 시 발생하는 프롬프트 특성과 한계점을 분석합니다. 텍스트 접두사 사용의 필요성, 일반 명사 선호 경향, 임계값 조절로 해결되지 않는 오검출 문제 등을 다룹니다.
핵심 포인트
- 검출 성능을 위해 'a ~'와 같은 접두사 사용이 필수적임
- 구체적인 명사보다 일반적인 명사에서 더 높은 스코어가 나올 수 있음
- 임계값 조절만으로는 특정 객체만 추출하기 어려운 오검출 사례 존재
- 개와 고양이 등 유사 객체 간의 혼동 가능성 확인
서론
OWL-ViT 모델을 사용한 객체 탐지 (Object Detection) Streamlit 애플리케이션을 구현한 후, 얻은 지견을 공유합니다.
코드에 대한 설명은 하지 않습니다 (AI 생성물이라 설명할 수 있는 부분이 없기도 합니다).
리포지토리
OWL-ViT의 객체 탐지에 대하여
텍스트 프롬프트는 「a ~」와 같은 접두사를 붙이지 않으면 거의 검색되지 않는다
예를 들어, dog로는 검출되지 않지만, a dog로는 검출된다.
OWL-ViT 학습 데이터의 특징인 것으로 보인다.
텍스트에 따라 구체적인 명사보다 일반적인 명사의 스코어가 더 높을 때가 있다
특히 일본 음식 등의 경우, a onion이나 a soba로는 스코어가 낮고, a food로 검색했을 때 가장 스코어가 높다.
원본 이미지 직접 촬영

a food로 검색 (스코어: 파가 0.52, 소바가 0.36)

a onion(파)으로 검색 (스코어: 0.05~0.11) ※
a long onion(대파)이면 0.05~0.09로 떨어진다 
a soba로 검색 (스코어: 소바가 0.10, 채반을 포함한 사각형이 0.13)

임계값(Threshold)을 조절해도 오검출이 발생할 수 있다
예를 들어 위의 a soba 검색 시, 소바보다 채반을 포함한 소바의 스코어가 더 높다.
이 경우, 임계값을 어떻게 조정해도 소바만을 추출할 수 없다.
또한, 개와 고양이 등도 혼동이 일어나기 쉽다.
원본 이미지 저작자: freepik

a cat으로 검색 왼쪽 고양이가 0.70, 오른쪽 개가 0.43

a dog으로 검색 오른쪽 개가 0.30

a dog, a cat으로 검색 어떻게 해도 개가 a cat으로 검색되어 버린다 
감사 인사
샘플 코드는 Google Antigravity와 Google Gemini를 사용하여 구현했습니다.
Discussion

AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn ML의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기