본문으로 건너뛰기

© 2026 Molayo

X Home요약2026. 05. 25. 00:47

대부분의 모델은 존재하는 벤치마크의 극히 일부에서만 평가됩니다.

요약

ArtifactLinker는 HuggingFace의 그래프 데이터를 기반으로 모델의 SOTA 달성 가능성을 예측하는 새로운 시스템입니다. GNN을 활용해 모델과 데이터셋 간의 관계를 분석하며, 기존 LLM 기반 방식보다 뛰어난 성능을 보여줍니다.

핵심 포인트

  • GNN을 활용한 모델의 벤치마크 SOTA 달성 가능성 예측
  • HuggingFace의 모델, 데이터셋, 논문 간 그래프 구조 활용
  • LLM 코딩 에이전트와 공유 메모리를 통한 평가 코드 실행
  • 최신 LLM이 특정 작업에서 구형 모델에 패배하는 사례 발견

대부분의 모델은 존재하는 벤치마크 (benchmarks)의 극히 일부에서만 평가됩니다.

우리의 새로운 시스템인 ArtifactLinker는 @HuggingFace 에 호스팅된 벤치마크에서 어떤 모델이 새로운 SOTA (state-of-the-art, 최첨단 성능)를 기록할지 예측한 다음, 검증을 위해 평가를 실행합니다.

ArtifactLinker는 HuggingFace 데이터의 그래프 (graph)를 기반으로 구축되었습니다. 모델 (models)과 데이터셋 (datasets)은 노드 (nodes)이며, 보고된 평가 점수 (eval scores)는 엣지 (edges)를 형성합니다.

우리는 어떤 모델이 어떤 벤치마크에서 새로운 SOTA에 도달할 가능성이 높은지 순위를 매기기 위해 GNN (Graph Neural Network, 그래프 신경망)을 훈련시켰으며, 이는 프롬프트 기반의 LLM (Large Language Models)보다 뛰어난 성능을 보였습니다.

ArtifactLinker에서 LLM 코딩 에이전트 (coding agent)는 실행 간 공유 메모리 (shared memory)를 사용하여 평가 코드를 작성하고 실행합니다.

우리는 이것이 72.6%의 확률로 공식적으로 보고된 점수의 80% 이내 수치에 도달한다는 것을 발견했습니다.

ArtifactLinker를 사용하여, 우리는 강력한 모델이 자신이 SOTA를 기록하거나 그에 근접할 수 있는 벤치마크에서 한 번도 평가되지 않았던 사례들을 발견했습니다.

또한 우리는 Gemma 와 같은 최신 LLM들이 자연어 추론 (natural language inference) 작업에서 오래된 DeBERTa 모델들에게 종종 패배한다는 사실도 발견했습니다.

우리는 51K 개의 평가 (evaluations), 파인튜닝 (fine-tunings), 그리고 참조 (references)로 연결된 14K 개의 HuggingFace 모델, 데이터셋, 논문, 코드베이스 데이터셋과 ArtifactLinker 코드를 공개합니다.

이것이 다른 사람들이 SOTA 평가 결과를 찾는 데 도움이 되기를 바랍니다.

Code:
https://github.com/allenai/artifact-linker

Data:

AI 자동 생성 콘텐츠

본 콘텐츠는 X 홈 추천 피드의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0