Zenn헤드라인2026. 05. 22. 10:44

OWL-ViT(Open Vocabulary Object Detection 모델) 프롬프트의 특징

요약

OWL-ViT 모델을 활용한 객체 탐지 시 발생하는 프롬프트 특성과 한계점을 분석합니다. 텍스트 접두사 사용의 필요성, 일반 명사 선호 경향, 임계값 조절로 해결되지 않는 오검출 문제 등을 다룹니다.

핵심 포인트

검출 성능을 위해 'a ~'와 같은 접두사 사용이 필수적임
구체적인 명사보다 일반적인 명사에서 더 높은 스코어가 나올 수 있음
임계값 조절만으로는 특정 객체만 추출하기 어려운 오검출 사례 존재
개와 고양이 등 유사 객체 간의 혼동 가능성 확인

서론

OWL-ViT 모델을 사용한 객체 탐지 (Object Detection) Streamlit 애플리케이션을 구현한 후, 얻은 지견을 공유합니다.

코드에 대한 설명은 하지 않습니다 (AI 생성물이라 설명할 수 있는 부분이 없기도 합니다).

리포지토리

OWL-ViT의 객체 탐지에 대하여

텍스트 프롬프트는 「a ~」와 같은 접두사를 붙이지 않으면 거의 검색되지 않는다

예를 들어, dog로는 검출되지 않지만, a dog로는 검출된다.

OWL-ViT 학습 데이터의 특징인 것으로 보인다.

텍스트에 따라 구체적인 명사보다 일반적인 명사의 스코어가 더 높을 때가 있다

특히 일본 음식 등의 경우, a onion이나 a soba로는 스코어가 낮고, a food로 검색했을 때 가장 스코어가 높다.

원본 이미지 직접 촬영

元の画像

a food로 검색 (스코어: 파가 0.52, 소바가 0.36)

で検索

a onion(파)으로 검색 (스코어: 0.05~0.11) ※

a long onion(대파)이면 0.05~0.09로 떨어진다 で検索

a soba로 검색 (스코어: 소바가 0.10, 채반을 포함한 사각형이 0.13)

で検索

임계값(Threshold)을 조절해도 오검출이 발생할 수 있다

예를 들어 위의 a soba 검색 시, 소바보다 채반을 포함한 소바의 스코어가 더 높다.

이 경우, 임계값을 어떻게 조정해도 소바만을 추출할 수 없다.

또한, 개와 고양이 등도 혼동이 일어나기 쉽다.

원본 이미지 저작자: freepik

alt text

a cat으로 검색 왼쪽 고양이가 0.70, 오른쪽 개가 0.43

alt text

a dog으로 검색 오른쪽 개가 0.30

alt text

a dog, a cat으로 검색 어떻게 해도 개가 a cat으로 검색되어 버린다 alt text

감사 인사

샘플 코드는 Google Antigravity와 Google Gemini를 사용하여 구현했습니다.

Discussion

AI 자동 생성 콘텐츠

원문 바로가기

OWL-ViT(Open Vocabulary Object Detection 모델) 프롬프트의 특징

요약

핵심 포인트

서론

리포지토리

OWL-ViT의 객체 탐지에 대하여

텍스트 프롬프트는 「a ~」와 같은 접두사를 붙이지 않으면 거의 검색되지 않는다

텍스트에 따라 구체적인 명사보다 일반적인 명사의 스코어가 더 높을 때가 있다

임계값(Threshold)을 조절해도 오검출이 발생할 수 있다

감사 인사

Discussion

댓글