일반화된 시각 언어 모델
요약
본 기사는 이미지 캡셔닝이나 VQA와 같은 시각-언어 작업의 최신 접근법을 소개합니다. 기존 시스템이 객체 탐지 네트워크를 사용하여 시각적 특징을 추출한 후 텍스트 디코더로 생성하는 방식에 의존했다면, 이 글은 사전 학습된 일반화된 언어 모델(PLM)을 확장하여 직접 시각 신호를 소비할 수 있도록 하는 방법을 중점적으로 다룹니다.
핵심 포인트
- 시각-언어 작업(이미지 캡셔닝, VQA 등)은 오랫동안 연구되어 온 분야이다.
- 전통적인 접근 방식은 객체 탐지 네트워크를 시각 인코더로 사용하고 텍스트 디코더가 텍스트를 생성하는 구조였다.
- 본 글의 초점은 사전 학습된 일반화된 언어 모델(PLM)을 확장하여 시각 신호를 직접 처리할 수 있게 하는 새로운 접근법에 맞춰져 있다.
이미지를 처리하여 텍스트를 생성하는 작업, 예를 들어 이미지 캡셔닝 (image captioning) 과 시각적 질문-답변 (visual question-answering),은 수년 동안 연구되어 왔습니다. 전통적으로 이러한 시스템은 객체 탐지 네트워크 (object detection network) 를 시각 인코더 (vision encoder) 로 사용하여 시각적 특징을 포착한 다음 텍스트 디코더 (text decoder) 를 통해 텍스트를 생성하는 데 의존했습니다. 기존 문헌이 방대하므로, 이 글에서는 시각 언어 작업을 해결하기 위한 하나의 접근법인 사전 학습된 일반화된 언어 모델 (pre-trained generalized language models) 을 확장하여 시각 신호 (visual signals) 를 소비할 수 있도록 하는 것만 집중적으로 다루겠습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Lilian Weng Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기