본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 27. 19:26

CNSL-bench: 중국 국가 수어 이해 능력을 가진 MLLM 평가 벤치마크

요약

본 기술 기사는 대규모 언어 모델(LLM)의 수어 이해 능력을 평가하기 위해 중국 국가 공통 수어 사전 기반의 포괄적인 벤치마크인 CNSL-bench를 소개합니다. 이 벤치마크는 정렬된 텍스트, 이미지, 비디오 등 다중 모달리티와 발음 다양성을 포함하여 수어 이해에 대한 일관되고 세밀한 평가 환경을 제공합니다. 연구 결과, 최신 MLLM들은 여전히 인간의 성능에 비해 현저히 부족하며, 입력 모달리티나 특정 수동 발음 형태에 따라 모델 간 성능 편차가 크다는 것을 입증했습니다.

핵심 포인트

  • CNSL-bench는 중국 국가 공통 수어 사전을 기반으로 하여 평가의 일관성과 권위를 확보한 최초의 포괄적인 MLLM 벤치마크이다.
  • 이 벤치마크는 텍스트, 이미지, 비디오 등 다중 모달리티와 손가락 철자 같은 다양한 수동 발음 형태를 지원하여 깊이 있는 평가가 가능하다.
  • 최신 MLLM들을 광범위하게 테스트한 결과, 현재 모델들은 인간의 수어 이해 능력에 비해 성능이 현저히 낮다.
  • 모델별로 입력 모달리티나 특정 수동 발음 형태에 따라 성능 편차가 크며, 명령 따르기(instruction-following) 강건성에도 개선할 여지가 많음을 보여준다.

대규모 언어 모델 (LLM) 의 발전으로 인해 수어 연구는 상당한 진전을 이루었습니다. 그러나 LLM 의 수어를 이해하는 내재적 능력, 특히 다중 모달 컨텍스트에서의 능력은 여전히 탐구되지 않았습니다. 이 한계를 해결하기 위해 우리는 수어 이해를 위한 다중 모달 대규모 언어 모델 (MLLM) 을 평가하도록 설계된 최초의 포괄적인 중국 국가 수어 벤치마크인 CNSL-bench 를 소개합니다. 제안된 CNSL-bench 는 다음과 같은 특징을 가집니다: 1) 권위 있는 근거, 공식적으로 표준화된 extit{국가 공통 수어 사전}에 기반하여 지역적 또는 비표준 변형에서 오는 모호성을 완화하고 일관된 의미 정의를 보장합니다; 2) 다중 모달 커버리지, 정렬된 텍스트 설명, 설명 이미지, 그리고 수어 비디오를 제공합니다; 3) 발음 다양성, 공중 쓰기 (air-writing), 손가락 철자 (finger-spelling), 중국 수어 알파벳 (Chinese manual-alphabet) 등 주요 수동 발음 형태에 대한 세밀한 분석을 지원합니다. CNSL-bench 를 사용하여 우리는 최신 오픈소스와 상용 MLLM 21 개를 광범위하게 평가했습니다. 우리의 결과는 다중 모달 모델링의 최근 발전에도 불구하고 현재 MLLM 은 인간 성능에 비해 여전히 현저히 열세이며, 입력 모달리티와 수동 발음 형태에 따라 체계적인 차이를 보인다는 것을 보여줍니다. 추가 진단 분석은 추론 개선 너머에도 몇 가지 성능 제한이 지속되고 있으며, 명령 따르기 강건성 (instruction-following robustness) 이 모델마다 크게 다르다는 것을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0