Tencent이 Hugging Face에 DiffSpot을 출시했습니다

Tencent이 Hugging Face에 DiffSpot을 출시했습니다.

두 개의 웹 스크린샷(web screenshots) 사이에서 VLMs(Vision-Language Models)가 단 하나의 미묘한 CSS 변경 사항을 찾아낼 수 있는지 테스트하는 벤치마크(benchmark)입니다.

문제는 무엇일까요?

가장 뛰어난 프런티어 모델(frontier models)조차 실제 변경 사항 5개 중 3개를 놓칩니다.

데이터셋(Dataset):
https://huggingface.co/datasets/tencent/DiffSpot

논문(Paper):
https://huggingface.co/papers/2605.29615

양방향 진화 탐색(Bidirectional Evolutionary Search)을 통한 자기 개선 LLMs (Self-Improving LLMs)

좁은 엔트로피 셸(entropy shells)을 벗어나기 위해 순방향 후보 진화(forward candidate evolution)와 역방향 목표 분해(backward goal decomposition)를 결합하여 조밀한 중간 피드백(dense intermediate feedback)을 제공함으로써, 사후 학습(post-training)과 추론(inference)을 모두 개선하는 탐색 프레임워크(search framework)입니다.

Insights

Tencent이 Hugging Face에 DiffSpot을 출시했습니다

요약

핵심 포인트

댓글

React 개발을 위한 Vite, 컴포넌트 및 npm 사용법

우버가 2026년 전체 AI 예산을 4개월 만에 소진한 사연 — 단 2시간 코딩 세션 비용이 $1,200

Mistral AI의 Robostral Navigate를 통한 물리적 AI 시장 진출

Fuels Littelfuse(LFUS)의 40% 급등세

React 개발을 위한 Vite, 컴포넌트 및 npm 사용법

우버가 2026년 전체 AI 예산을 4개월 만에 소진한 사연 — 단 2시간 코딩 세션 비용이 $1,200

Mistral AI의 Robostral Navigate를 통한 물리적 AI 시장 진출

Fuels Littelfuse(LFUS)의 40% 급등세