본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 01. 06:44

DeepSeek, 'Thinking-with-Visual-Primitives' 프레임워크 공개

요약

DeepSeek은 베이징 대학 및 칭화 대학과 협력하여 'Thinking with Visual Primitives'라는 새로운 다중 모달 추론 프레임워크를 공개했습니다. 이 프레임워크는 공간 토큰(좌표 점, 경계 상자 등)을 모델의 사슬 사고(CoT) 과정에서 핵심적인 '생각의 최소 단위'로 활용하는 것이 특징입니다. 이를 통해 모델은 단순히 이미지를 인식하는 것을 넘어, 추론 과정 중 특정 위치를 직접 가리키며 '사고'할 수 있게 됩니다.

핵심 포인트

  • 새로운 다중 모달 추론 프레임워크 'Thinking with Visual Primitives' 공개
  • 공간 토큰(좌표 점, 경계 상자)을 모델의 사슬 사고(CoT) 과정에 통합함.
  • 모델이 이미지를 관찰하며 특정 위치를 가리키는 방식으로 추론 능력을 향상시킴.
  • 학술적 협력 (베이징 대학, 칭화 대학) 기반 연구 결과임.

DeepSeek 는 베이징 대학과 칭화 대학과 협력하여 새로운 다중 모달 추론 프레임워크를 소개하는 논문 "Thinking with Visual Primitives"와 오픈소스 저장소를 공개했습니다. 이 프레임워크의 핵심 접근 방식은 공간 토큰(특히 좌표 점과 경계 상자) 을 모델의 사슬 사고 (chain-of-thought) 내의 "생각의 최소 단위"로 격상시키는 것입니다. 이러한 요소들은 추론 과정에서 직접적으로 교차 배치되어, 모델이 이미지를 관찰하며 "생각"하는 동안 특정 위치를 가리킬 수 있도록 합니다.

https://github.com/deepseek-ai/Thinking-with-Visual-Primitives

주의: DeepSeek 는 저장소를 삭제했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
40

댓글

0