arXiv논문2026. 06. 03. 11:04

의미론을 넘어: 시각-언어 데이터로부터 사실적 및 정서적 지각 경험 모델링하기

요약

이미지의 객관적 사실과 주관적 정서적 측면을 모델링하는 P-Topics 개념과 이를 구현하는 PercepT 아키텍처를 제안합니다. 비지도 학습을 통해 시각-텍스트 클러스터를 동적으로 발견하고 이미지를 관련 지각 경험에 매핑하는 2단계 구조를 가집니다.

핵심 포인트

P-Topics: 이미지의 사실적 및 정서적 지각 경험 모델링
PercepT: 비지도 학습 기반의 2단계 Transformer 아키텍처
ArtELingo 데이터셋에서 실루엣 점수 0.97 달성
기존 방법론 대비 뛰어난 지각 클러스터 매핑 성능 입증

우리는 이미지가 정서적으로, 그리고 문화 전반에 걸쳐 어떻게 지각되는지를 이해하기 위한 새로운 문제인 P-Topics (Perception Topics) 모델링을 제시합니다. 이 연구의 목표는 (1) 이미지와 캡션(captions) 데이터셋에서 각각의 경험이 객관적인 사실적(factual) 측면과 주관적인 정서적(affective) 측면으로 정의되는 다양한 지각 경험을 발견하고 모델링하며, (2) 이미지를 관련 지각 경험과 연결하는 것입니다. 우리는 P-Topics 모델링을 해결하기 위한 2단계 아키텍처인 PercepT (Perception topic Transformer)를 소개합니다. 형성(formation) 단계에서, PercepT는 비지도 학습 목표(unsupervised training objective)를 사용하여 시각-텍스트 클러스터(visual-textual clusters)로서 P-Topics를 발견하며, 데이터셋의 지각적 풍부함에 맞춰 클러스터의 수를 동적으로 선택합니다. 매핑(mapping) 단계에서는 어텐션 풀링(attention pooling)을 통해 *P-Topic 매핑 함수(mapping functions)*를 학습하여 이미지를 각각의 클러스터와 연결합니다. ArtELingo 데이터셋에서 PercepT는 가장 유사한 베이스라인의 0.37과 비교하여 0.97의 실루엣 점수(silhouette score)를 달성하며 더 나은 지각 클러스터를 반영함을 보여주었습니다. 또한 PercepT는 AUC 점수에서 0.77 대비 0.94를 달성하여 지각 클러스터로의 더 나은 매핑 성능을 입증했습니다. 인간 평가(Human evaluation)를 통해 PercepT가 의미론적으로 유의미한 지각 경험을 포착하며 기존 방법론들을 크게 능가함을 확인했습니다. 우리의 구현체는 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

의미론을 넘어: 시각-언어 데이터로부터 사실적 및 정서적 지각 경험 모델링하기

요약

핵심 포인트

댓글