문자 그대로를 넘어: 멀티모달 밈 이해에서의 화용론적 의도 분해
요약
LVLM이 밈의 표면적 내용과 실제 화용론적 의도를 혼동하는 문제를 해결하기 위해 Intent Projection 프레임워크를 제안합니다. 이 프레임워크는 표현, 출력, 목적 수준에서 문자적 정보와 화용론적 정보를 분리하여 밈의 숨겨진 의도를 정확히 파악합니다.
핵심 포인트
- 문자적-화용론적 분해를 통한 밈 이해 문제 재정의
- 직교 투영 모듈을 활용한 화용론적 잔차 유지 기술
- 구조화된 추론 체인 및 대조적 보상 기반의 학습 목적 설계
- 오픈 소스 모델의 성능을 높여 폐쇄형 모델과의 격차 해소
밈(Meme)이나 풍자적인 게시물이 무엇을 의미하는지 질문을 받았을 때, 거대 시각 언어 모델(Large Vision Language Models, LVLMs)은 작성자가 전달하려는 내용보다는 이미지가 보여주는 것을 설명하는 경향이 있습니다. 표준적인 지시어 튜닝(Instruction tuning)은 게시물의 문자 그대로의 내용(Literal content)과 화용론적 의미(Pragmatic meaning)를 뒤섞어 놓아, 표면적인 세부 사항이 최종 응답을 오염시키게 만듭니다. 우리는 밈 이해를 문자적-화용론적 분해(Literal-pragmatic decomposition) 문제로 재정의하고, 단일 LVLM 백본(Backbone) 내에서 표현(Representation), 출력(Output), 그리고 목적(Objective) 수준에서 두 신호를 분리하는 프레임워크인 extbf{Intent Projection}을 제안합니다. 표현 수준에서는 직교 투영(Orthogonal projection) 모듈이 융합된 이미지-텍스트 표현에서 지배적인 단일 모달(Unimodal) 방향을 제거하여 화용론적 잔차(Pragmatic residual)만을 유지하며, 표면적 정서 분류기(Surface-real affect classifier)가 극성 차이(Polarity gap)를 명시하는 이산 태그(Discrete tag)로 디코더(Decoder)를 고정합니다. 출력 수준에서 모델은 구조화된 추론 체인(Reasoning chain)을 외재화하며, 목적 수준에서는 대조적 보상(Contrastive reward)을 통해 문자 그대로의 설명을 재진술하는 답변에 명시적으로 페널티를 부여합니다. 6개의 멀티모달 벤치마크 전반에 걸쳐, Intent Projection은 오픈 소스 베이스라인(Baselines)보다 일관되게 우수한 성능을 보였으며 폐쇄형 모델(Proprietary models)과의 격차를 좁혔습니다. 특히 문자 그대로의 해석이 가장 큰 피해를 주는 높은 발산성(High-divergence) 게시물에서 가장 큰 성능 향상을 보였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기