본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 13:33

FIND: 인도 언어들을 위한 멀티모달 금융 추론 및 질의응답을 향하여

요약

본 기사는 인도 언어 환경에서의 금융 의사결정 및 수치 추론의 어려움을 다루며, 이를 평가하기 위한 새로운 벤치마크 FinVQA를 소개합니다. FinVQA는 영어, 힌디어, 벵골어 등 여러 인도 언어를 포함하며, 다양한 금융 도메인과 네 가지 질문 형식으로 구성된 18,900개의 샘플을 제공합니다. 또한, 이 문제를 해결하기 위해 충실한 수치 추론, 멀티모달 그라운딩, 구조화된 의사결정을 결합한 FIND 프레임워크를 제안하여 평가 및 모델링 패러다임을 구축했습니다.

핵심 포인트

  • FinVQA는 인도 언어 맥락에서의 금융 수치 및 멀티모달 추론을 위한 새로운 벤치마크입니다.
  • 이 데이터셋은 영어, 힌디어, 벵골어 등 여러 인도 언어를 포함하며, 14개 도메인에 걸쳐 18,900개의 샘플로 구성되어 있습니다.
  • FinVQA는 객관식, 빈칸 채우기, 표 매칭, 참/거짓 등 네 가지 질문 형식과 세 가지 난이도 수준을 갖추고 있습니다.
  • FIND 프레임워크는 수치 추론, 멀티모달 그라운딩, 구조화된 의사결정을 위해 지도 미세 조정 및 제약 조건 인식 디코딩을 결합했습니다.

다국어 환경에서의 금융 의사결정은 다양한 모달리티 (modalities)에 기반한 정확한 수치 추론 (numerical reasoning)을 요구하지만, 기존의 벤치마크 (benchmarks)들은 이러한 중대한 실세계의 도전 과제, 특히 인도 언어 (Indic languages)들에 대한 부분을 대체로 간과하고 있습니다. 우리는 다국어 인도 언어 맥락에서 금융 수치 및 멀티모달 추론을 평가하기 위한 벤치마크인 FinVQA를 소개합니다. FinVQA는 영어, 힌디어 (Hindi), 벵골어 (Bengali), 마라티어 (Marathi), 구자라트어 (Gujarati), 타밀어 (Tamil)를 아우르며, 14개의 금융 도메인에 걸쳐 18,900개의 샘플로 구성됩니다. 이 데이터셋은 현실적인 제약 조건 하에서의 다양한 추론 패러다임을 포착하며, 세 가지 난이도 수준 (easy, moderate, hard)과 네 가지 질문 형식인 객관식 (multiple choice), 빈칸 채우기 (fill-in-the-blank), 표 매칭 (table matching), 참/거짓 (true/false)으로 구조화되어 있습니다. 이러한 과제들을 해결하기 위해, 우리는 충실한 수치 추론 (faithful numerical reasoning), 견고한 멀티모달 그라운딩 (robust multimodal grounding), 그리고 구조화된 의사결정을 촉진하기 위해 지도 미세 조정 (supervised fine-tuning)과 제약 조건 인식 디코딩 (constraint-aware decoding)을 결합한 프레임워크인 FIND를 제안합니다. FinVQA와 FIND는 함께 중대한 다국어 멀티모달 금융 추론을 위한 엄격한 평가 및 모델링 패러다임을 구축합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0