arXiv논문2026. 04. 27. 19:26

CNSL-bench: 중국 국가 수어 이해 능력을 가진 MLLM 평가 벤치마크

요약

본 기술 기사는 대규모 언어 모델(LLM)의 수어 이해 능력을 평가하기 위해 중국 국가 공통 수어 사전 기반의 포괄적인 벤치마크인 CNSL-bench를 소개합니다. 이 벤치마크는 정렬된 텍스트, 이미지, 비디오 등 다중 모달리티와 발음 다양성을 포함하여 수어 이해에 대한 일관되고 세밀한 평가 환경을 제공합니다. 연구 결과, 최신 MLLM들은 여전히 인간의 성능에 비해 현저히 부족하며, 입력 모달리티나 특정 수동 발음 형태에 따라 모델 간 성능 편차가 크다는 것을 입증했습니다.

핵심 포인트

CNSL-bench는 중국 국가 공통 수어 사전을 기반으로 하여 평가의 일관성과 권위를 확보한 최초의 포괄적인 MLLM 벤치마크이다.
이 벤치마크는 텍스트, 이미지, 비디오 등 다중 모달리티와 손가락 철자 같은 다양한 수동 발음 형태를 지원하여 깊이 있는 평가가 가능하다.
최신 MLLM들을 광범위하게 테스트한 결과, 현재 모델들은 인간의 수어 이해 능력에 비해 성능이 현저히 낮다.
모델별로 입력 모달리티나 특정 수동 발음 형태에 따라 성능 편차가 크며, 명령 따르기(instruction-following) 강건성에도 개선할 여지가 많음을 보여준다.

대규모 언어 모델 (LLM) 의 발전으로 인해 수어 연구는 상당한 진전을 이루었습니다. 그러나 LLM 의 수어를 이해하는 내재적 능력, 특히 다중 모달 컨텍스트에서의 능력은 여전히 탐구되지 않았습니다. 이 한계를 해결하기 위해 우리는 수어 이해를 위한 다중 모달 대규모 언어 모델 (MLLM) 을 평가하도록 설계된 최초의 포괄적인 중국 국가 수어 벤치마크인 CNSL-bench 를 소개합니다. 제안된 CNSL-bench 는 다음과 같은 특징을 가집니다: 1) 권위 있는 근거, 공식적으로 표준화된 extit{국가 공통 수어 사전}에 기반하여 지역적 또는 비표준 변형에서 오는 모호성을 완화하고 일관된 의미 정의를 보장합니다; 2) 다중 모달 커버리지, 정렬된 텍스트 설명, 설명 이미지, 그리고 수어 비디오를 제공합니다; 3) 발음 다양성, 공중 쓰기 (air-writing), 손가락 철자 (finger-spelling), 중국 수어 알파벳 (Chinese manual-alphabet) 등 주요 수동 발음 형태에 대한 세밀한 분석을 지원합니다. CNSL-bench 를 사용하여 우리는 최신 오픈소스와 상용 MLLM 21 개를 광범위하게 평가했습니다. 우리의 결과는 다중 모달 모델링의 최근 발전에도 불구하고 현재 MLLM 은 인간 성능에 비해 여전히 현저히 열세이며, 입력 모달리티와 수동 발음 형태에 따라 체계적인 차이를 보인다는 것을 보여줍니다. 추가 진단 분석은 추론 개선 너머에도 몇 가지 성능 제한이 지속되고 있으며, 명령 따르기 강건성 (instruction-following robustness) 이 모델마다 크게 다르다는 것을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

CNSL-bench: 중국 국가 수어 이해 능력을 가진 MLLM 평가 벤치마크

요약

핵심 포인트

댓글