Lilian헤드라인2026. 04. 29. 14:45

일반화된 시각 언어 모델

요약

본 기사는 이미지 캡셔닝이나 VQA와 같은 시각-언어 작업의 최신 접근법을 소개합니다. 기존 시스템이 객체 탐지 네트워크를 사용하여 시각적 특징을 추출한 후 텍스트 디코더로 생성하는 방식에 의존했다면, 이 글은 사전 학습된 일반화된 언어 모델(PLM)을 확장하여 직접 시각 신호를 소비할 수 있도록 하는 방법을 중점적으로 다룹니다.

핵심 포인트

시각-언어 작업(이미지 캡셔닝, VQA 등)은 오랫동안 연구되어 온 분야이다.
전통적인 접근 방식은 객체 탐지 네트워크를 시각 인코더로 사용하고 텍스트 디코더가 텍스트를 생성하는 구조였다.
본 글의 초점은 사전 학습된 일반화된 언어 모델(PLM)을 확장하여 시각 신호를 직접 처리할 수 있게 하는 새로운 접근법에 맞춰져 있다.

이미지를 처리하여 텍스트를 생성하는 작업, 예를 들어 이미지 캡셔닝 (image captioning) 과 시각적 질문-답변 (visual question-answering),은 수년 동안 연구되어 왔습니다. 전통적으로 이러한 시스템은 객체 탐지 네트워크 (object detection network) 를 시각 인코더 (vision encoder) 로 사용하여 시각적 특징을 포착한 다음 텍스트 디코더 (text decoder) 를 통해 텍스트를 생성하는 데 의존했습니다. 기존 문헌이 방대하므로, 이 글에서는 시각 언어 작업을 해결하기 위한 하나의 접근법인 사전 학습된 일반화된 언어 모델 (pre-trained generalized language models) 을 확장하여 시각 신호 (visual signals) 를 소비할 수 있도록 하는 것만 집중적으로 다루겠습니다.

AI 자동 생성 콘텐츠

원문 바로가기

일반화된 시각 언어 모델

요약

핵심 포인트

댓글