본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 03. 11:04

의미론을 넘어: 시각-언어 데이터로부터 사실적 및 정서적 지각 경험 모델링하기

요약

이미지의 객관적 사실과 주관적 정서적 측면을 모델링하는 P-Topics 개념과 이를 구현하는 PercepT 아키텍처를 제안합니다. 비지도 학습을 통해 시각-텍스트 클러스터를 동적으로 발견하고 이미지를 관련 지각 경험에 매핑하는 2단계 구조를 가집니다.

핵심 포인트

  • P-Topics: 이미지의 사실적 및 정서적 지각 경험 모델링
  • PercepT: 비지도 학습 기반의 2단계 Transformer 아키텍처
  • ArtELingo 데이터셋에서 실루엣 점수 0.97 달성
  • 기존 방법론 대비 뛰어난 지각 클러스터 매핑 성능 입증

우리는 이미지가 정서적으로, 그리고 문화 전반에 걸쳐 어떻게 지각되는지를 이해하기 위한 새로운 문제인 P-Topics (Perception Topics) 모델링을 제시합니다. 이 연구의 목표는 (1) 이미지와 캡션(captions) 데이터셋에서 각각의 경험이 객관적인 사실적(factual) 측면과 주관적인 정서적(affective) 측면으로 정의되는 다양한 지각 경험을 발견하고 모델링하며, (2) 이미지를 관련 지각 경험과 연결하는 것입니다. 우리는 P-Topics 모델링을 해결하기 위한 2단계 아키텍처인 PercepT (Perception topic Transformer)를 소개합니다. 형성(formation) 단계에서, PercepT는 비지도 학습 목표(unsupervised training objective)를 사용하여 시각-텍스트 클러스터(visual-textual clusters)로서 P-Topics를 발견하며, 데이터셋의 지각적 풍부함에 맞춰 클러스터의 수를 동적으로 선택합니다. 매핑(mapping) 단계에서는 어텐션 풀링(attention pooling)을 통해 *P-Topic 매핑 함수(mapping functions)*를 학습하여 이미지를 각각의 클러스터와 연결합니다. ArtELingo 데이터셋에서 PercepT는 가장 유사한 베이스라인의 0.37과 비교하여 0.97의 실루엣 점수(silhouette score)를 달성하며 더 나은 지각 클러스터를 반영함을 보여주었습니다. 또한 PercepT는 AUC 점수에서 0.77 대비 0.94를 달성하여 지각 클러스터로의 더 나은 매핑 성능을 입증했습니다. 인간 평가(Human evaluation)를 통해 PercepT가 의미론적으로 유의미한 지각 경험을 포착하며 기존 방법론들을 크게 능가함을 확인했습니다. 우리의 구현체는 공개될 예정입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0