FIND: 인도 언어들을 위한 멀티모달 금융 추론 및 질의응답을 향하여

다국어 환경에서의 금융 의사결정은 다양한 모달리티 (modalities)에 기반한 정확한 수치 추론 (numerical reasoning)을 요구하지만, 기존의 벤치마크 (benchmarks)들은 이러한 중대한 실세계의 도전 과제, 특히 인도 언어 (Indic languages)들에 대한 부분을 대체로 간과하고 있습니다. 우리는 다국어 인도 언어 맥락에서 금융 수치 및 멀티모달 추론을 평가하기 위한 벤치마크인 FinVQA를 소개합니다. FinVQA는 영어, 힌디어 (Hindi), 벵골어 (Bengali), 마라티어 (Marathi), 구자라트어 (Gujarati), 타밀어 (Tamil)를 아우르며, 14개의 금융 도메인에 걸쳐 18,900개의 샘플로 구성됩니다. 이 데이터셋은 현실적인 제약 조건 하에서의 다양한 추론 패러다임을 포착하며, 세 가지 난이도 수준 (easy, moderate, hard)과 네 가지 질문 형식인 객관식 (multiple choice), 빈칸 채우기 (fill-in-the-blank), 표 매칭 (table matching), 참/거짓 (true/false)으로 구조화되어 있습니다. 이러한 과제들을 해결하기 위해, 우리는 충실한 수치 추론 (faithful numerical reasoning), 견고한 멀티모달 그라운딩 (robust multimodal grounding), 그리고 구조화된 의사결정을 촉진하기 위해 지도 미세 조정 (supervised fine-tuning)과 제약 조건 인식 디코딩 (constraint-aware decoding)을 결합한 프레임워크인 FIND를 제안합니다. FinVQA와 FIND는 함께 중대한 다국어 멀티모달 금융 추론을 위한 엄격한 평가 및 모델링 패러다임을 구축합니다.

Insights

FIND: 인도 언어들을 위한 멀티모달 금융 추론 및 질의응답을 향하여

요약

핵심 포인트

댓글

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인