본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 08. 03:41

X2SAM: Any Segmentation in Images and Videos

요약

X2SAM은 이미지와 비디오에 걸쳐 임의 분할(Any Segmentation) 기능을 확장하는 통합된 멀티모달 대규모 언어 모델(MLLM)입니다. 이 모델은 시간적 일관성을 유지하기 위해 Mask Memory 모듈을 지원하며, 일반적인 분할부터 지시 기반, 추론 및 상호작용 분할에 이르기까지 다양한 유형의 분할 작업을 수행할 수 있습니다.

핵심 포인트

  • X2SAM은 이미지와 비디오를 아우르는 통합 분할(Segmentation) 모델입니다.
  • 시간적 일관성 유지를 위해 Mask Memory 모듈을 도입했습니다.
  • 일반, 오픈-보컬리, 지시 기반, 추론 및 상호작용 등 다양한 유형의 분할 작업을 지원합니다.

X2SAM: 이미지와 비디오의 임의 분할 (Any Segmentation) 확장

이미지부터 비디오까지 분할 기능을 확장하는 통합된 MLLM으로, 시간적 일관성을 위한 Mask Memory 모듈을 지원합니다. 일반적, 오픈-보컬리, 지시, 추론, 상호작용 분할을 지원함.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0