
Tencent이 Hugging Face에 DiffSpot을 출시했습니다
요약
Tencent이 웹 스크린샷 간의 미세한 CSS 변경 사항을 탐지하는 벤치마크인 DiffSpot을 Hugging Face에 출시했습니다. 현재 최신 모델들도 미세한 변화를 포착하는 데 어려움을 겪고 있음을 보여줍니다.
핵심 포인트
- DiffSpot: VLM의 미세한 웹 UI 변경 사항 탐지 능력 측정 벤치마크
- 현존 프런티어 모델들도 변경 사항의 약 60%만 식별하는 한계 노출
- 양방향 진화 탐색을 통한 LLM의 자기 개선 프레임워크 제안
Tencent이 Hugging Face에 DiffSpot을 출시했습니다.
두 개의 웹 스크린샷(web screenshots) 사이에서 VLMs(Vision-Language Models)가 단 하나의 미묘한 CSS 변경 사항을 찾아낼 수 있는지 테스트하는 벤치마크(benchmark)입니다.
문제는 무엇일까요?
가장 뛰어난 프런티어 모델(frontier models)조차 실제 변경 사항 5개 중 3개를 놓칩니다.
데이터셋(Dataset):
https://huggingface.co/datasets/tencent/DiffSpot
논문(Paper):
https://huggingface.co/papers/2605.29615
양방향 진화 탐색(Bidirectional Evolutionary Search)을 통한 자기 개선 LLMs (Self-Improving LLMs)
좁은 엔트로피 셸(entropy shells)을 벗어나기 위해 순방향 후보 진화(forward candidate evolution)와 역방향 목표 분해(backward goal decomposition)를 결합하여 조밀한 중간 피드백(dense intermediate feedback)을 제공함으로써, 사후 학습(post-training)과 추론(inference)을 모두 개선하는 탐색 프레임워크(search framework)입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기