Papers with Code의 새로운 업데이트 사항 [P]
요약
Papers with Code가 연구 발견을 돕기 위해 대규모 업데이트를 진행했습니다. SOTA 배지 도입, GitHub 스타와 Hugging Face 지표를 결합한 새로운 트렌딩 점수, 그리고 제3자 외부 평가 지원 기능이 추가되었습니다.
핵심 포인트
- 특정 벤치마크 상위 3위 이내 기록 시 SOTA 배지 표시
- GitHub 스타 증가 속도와 Hugging Face 지표를 결합한 트렌딩 점수 도입
- 논문 자체 평가 외에 제3자 외부 평가(External evals) 데이터 지원
- 다양한 신규 벤치마크 및 태스크 데이터 지속 업데이트
안녕하세요 여러분,
Hugging Face의 오픈 소스 팀에서 활동하고 있는 Niels입니다. Ilya Sutskever의 말처럼 우리가 다시 "연구의 시대"로 돌아가고 있는 만큼, 저는 paperswithcode.co의 부활을 위해 계속해서 작업하고 있습니다! 따라서 서로의 연구를 발견하고 서로의 작업물을 바탕으로 발전시켜 나가는 것은 매우 중요하며, 이를 통해 우리는 집단적으로 차세대 Transformer를 구축할 수 있습니다. 아래에서 최근 추가된 새로운 기능들을 하나씩 살펴보겠습니다.
SOTA 배지 지원
네, 맞습니다. 예전 웹사이트와 완전히 동일합니다. 예를 들어 GLM-5.2가 오늘 가장 뜨거운 블로그 게시물이며, PostTrainBench에서 SOTA (State-of-the-Art)를 달성하고 다른 많은 벤치마크에서도 우수한 성능을 보이는 것을 확인할 수 있습니다. 논문이 특정 벤치마크에서 상위 3위 이내의 점수를 기록할 때마다 이 배지가 표시됩니다.
이 배지들은 예를 들어 https://paperswithcode.co/tasks/video-classification 을 포함한 모든 논문 피드에 표시된다는 점에 유의하세요.
https://preview.redd.it/wawma8paeu8h1.png?width=2418&format=png&auto=webp&s=0ba3b6a0eaef231b7f3ca468cc3db4120f1b9e4d
새로운 트렌딩 점수 (Trending score)
이제 논문들은 새로운 트렌딩 지표를 기반으로 순위가 매겨집니다. 이는 GitHub 스타 증가 속도 (star velocity)와 연결된 Hugging Face 아티팩트(모델, 데이터셋, Spaces)의 트렌딩 점수를 결합한 것입니다. 이전에는 GitHub 스타 증가 속도만을 고려했습니다.
덕분에 현재 트렌딩 중인 GLM-5.2 모델의 핵심 기술인 IndexCache와 같은 논문들이 트렌딩 목록에 오르고 있습니다.
https://preview.redd.it/b6g04w2ogu8h1.png?width=2380&format=png&auto=webp&s=13d59bbadd5f88295deac2ee6e1e0e3dbc0f40f
외부 평가 (External evals) 지원
두 번째로, "외부" 평가 (external evals) 지원 기능을 추가했습니다. 이는 기존의 PwC 웹사이트에는 실제로 없었던 기능입니다. 종종 논문은 논문 자체에서 소개된 것보다 훨씬 더 많은 평가를 받기도 합니다. 이제 이러한 제3자 평가를 확인할 수 있습니다. 몇 가지 예시는 다음과 같습니다:
GLM-5.2에 대한 FrontierSWE 및 PostTrainBench 수치: https://paperswithcode.co/paper/98456#results?task=agents
Artificial Analysis는 까다로운 물리 벤치마크인 CritPt에 대한 수치를 보유하고 있습니다. 예를 들어...
https://paperswithcode.co/paper/85629#results?task=reasoning
더 많은 태스크 (tasks), 벤치마크 (benchmarks) 및 평가 (evals)
저는 더 많은 벤치마크 (benchmarks)를 추가하고 더 많은 논문의 평가 (evals)를 추가하고 있습니다. 이는 허브 (hub)에서 사용 가능한 기존 Papers with Code (PwC) 데이터를 기반으로 점진적으로 진행됩니다.
몇 가지 새로운 벤치마크 (benchmarks)는 다음과 같습니다:
- ImageNet - 데이터의 10%
https://preview.redd.it/wr55g27ofu8h1.png?width=2880&format=png&auto=webp&s=e6e5ef7e3a36cd5aa6d2841b149194239f4ad1e0 - 3D 시맨틱 세그멘테이션 (3D semantic segmentation):
https://preview.redd.it/zxgobrnqfu8h1.png?width=2880&format=png&auto=webp&s=6ee2935981825d5d7825709294ddb84a4b7a3ac9 - 객체 카운팅 (object counting):
https://preview.redd.it/uhv4wbrsfu8h1.png?width=2880&format=png&auto=webp&s=183decb144d9779e41bf12ca58fbaab66cd29cbf
그리고 훨씬 더 많이 있습니다. https://paperswithcode.co/tasks 에서 모두 찾아보세요.
새로운 도메인 (domain)
Papers with Code는 이제 paperswithco.de 로도 접속 가능합니다 :)
무엇이 누락되었는지, 버그/기능 요청 (bug/feature requests), 그리고 기여 (contribute)하고 싶은지 알려주세요!
감사합니다,
Niels
/u/NielsRogge 에 의해 r/MachineLearning 에 게시됨
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기