DeepSeek, 'Thinking-with-Visual-Primitives' 프레임워크 공개

DeepSeek 는 베이징 대학과 칭화 대학과 협력하여 새로운 다중 모달 추론 프레임워크를 소개하는 논문 "Thinking with Visual Primitives"와 오픈소스 저장소를 공개했습니다. 이 프레임워크의 핵심 접근 방식은 공간 토큰(특히 좌표 점과 경계 상자) 을 모델의 사슬 사고 (chain-of-thought) 내의 "생각의 최소 단위"로 격상시키는 것입니다. 이러한 요소들은 추론 과정에서 직접적으로 교차 배치되어, 모델이 이미지를 관찰하며 "생각"하는 동안 특정 위치를 가리킬 수 있도록 합니다.

https://github.com/deepseek-ai/Thinking-with-Visual-Primitives

주의: DeepSeek 는 저장소를 삭제했습니다.

Insights

DeepSeek, 'Thinking-with-Visual-Primitives' 프레임워크 공개

요약

핵심 포인트

댓글

AI는 자신이 그린 것을 볼 수 없다

로드맵: AI 데이터센터 스택

LLM으로부터 FLOSS 공유지를 보호하려는 Codeberg

AI 에이전트에게 워크스페이스가 필요한 이유: 채팅은 결코 런타임이 아니었기 때문

로드맵: AI 데이터센터 스택

LLM으로부터 FLOSS 공유지를 보호하려는 Codeberg

AI 에이전트에게 워크스페이스가 필요한 이유: 채팅은 결코 런타임이 아니었기 때문