arXiv논문2026. 05. 01. 16:22

언어적 통찰에 기반한 베트남어 장면-텍스트 이미지 캡셔닝을 위한 다중모달 퓨전: 데이터셋, 그래프 프레임워크, 및 음운론적 주의

요약

본 논문은 이미지 내 텍스트를 포함하는 베트남어 장면-텍스트(scene-text) 캡셔닝을 위해 언어적 통찰력을 통합한 다중모달 퓨전 프레임워크를 제안합니다. 기존 방식이 텍스트를 단순 정보로 취급하여 베트남어의 성조, 부호 민감성, OCR 오류 등의 복잡성을 처리하지 못하는 문제를 해결하고자 합니다. 이를 위해 학습된 공간 주의 편향을 갖춘 그래프 기반 퓨전 프레임워크인 PhonoSTFG(Phonological Scene-Text Fusion Graph)를 설계하고, 대규모 베트남어 데이터셋 ViTextCaps를 구축하여 성능을 입증했습니다.

핵심 포인트

베트남어 장면-텍스트 캡셔닝은 성조와 부호 민감성 때문에 단순한 다중모달 퓨전으로는 어렵다.
제안된 PhonoSTFG는 언어적 구조 지식을 그래프 레벨에 명시적으로 통합하여 퓨전을 수행한다.
ViTextCaps라는 대규모 베트남어 장면-텍스트 캡셔닝 데이터셋을 최초로 공개했다.
그래프 분석 결과, 교차모달 그래프 엣지가 오히려 퓨전 성능에 해롭다는 점을 발견했다.

장면-텍스트 (scene-text) 이미지 캡셔닝은 이미지에 보이는 텍스트를 충실히 통합한 설명을 생성하기 위해 시각적 특징 (visual features), OCR 로 감지된 텍스트, 그리고 언어적 지식 (linguistic knowledge) 이라는 세 가지 정보 스트림을 퓨전해야 합니다. 기존 퓨전 접근법은 텍스트를 언어와 무관하게 취급하여 베트남어에 실패합니다. 베트남어는 성조어가므로 부호 (diacritics) 가 단어의 의미를 바꾸고, OCR 오류가 광범위하며, 단어 경계가 모호하기 때문입니다. 우리는 베트남어 장면-텍스트 캡셔닝이 extit{언어적 통찰에 기반한 다중모달 퓨전} (linguistically informed multimodal fusion) 을 필요로 한다고 주장합니다. 여기서 언어별 구조적 지식이 명시적으로 퓨전 메커니즘에 통합됩니다. 이러한 통찰에서 영감을 받아 우리는 학습된 공간 주의 편향 (learned spatial attention bias) 을 갖춘 범용 그래프 퓨전 프레임워크인 extbf{HSTFG} (Heterogeneous Scene-Text Fusion Graph) 를 제안하며, 위상 분석을 통해 교차모달 그래프 엣지가 장면-텍스트 퓨전에 해롭다는 것을 보여줍니다. 이 발견을 바탕으로 우리는 베트남어 언어적 추론을 위한 그래프 레벨 퓨전을 전문화하는 extbf{PhonoSTFG} (Phonological Scene-Text Fusion Graph) 를 설계했습니다. 평가를 지원하기 위해 우리는 첫 번째 대규모 베트남어 장면-텍스트 캡셔닝 데이터셋인 extbf{ViTextCaps} ( extbf{15,729} 개의 이미지와 extbf{74,970} 개의 캡션) 를 소개하며, 포괄적인 언어 분석을 통해 어휘의 52.8% 가 부호 충돌 (diacritic collision) 위험에 처해 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

언어적 통찰에 기반한 베트남어 장면-텍스트 이미지 캡셔닝을 위한 다중모달 퓨전: 데이터셋, 그래프 프레임워크, 및 음운론적 주의

요약

핵심 포인트

댓글