대부분의 모델은 존재하는 벤치마크의 극히 일부에서만 평가됩니다.

대부분의 모델은 존재하는 벤치마크 (benchmarks)의 극히 일부에서만 평가됩니다.

우리의 새로운 시스템인 ArtifactLinker는 @HuggingFace 에 호스팅된 벤치마크에서 어떤 모델이 새로운 SOTA (state-of-the-art, 최첨단 성능)를 기록할지 예측한 다음, 검증을 위해 평가를 실행합니다.

ArtifactLinker는 HuggingFace 데이터의 그래프 (graph)를 기반으로 구축되었습니다. 모델 (models)과 데이터셋 (datasets)은 노드 (nodes)이며, 보고된 평가 점수 (eval scores)는 엣지 (edges)를 형성합니다.

우리는 어떤 모델이 어떤 벤치마크에서 새로운 SOTA에 도달할 가능성이 높은지 순위를 매기기 위해 GNN (Graph Neural Network, 그래프 신경망)을 훈련시켰으며, 이는 프롬프트 기반의 LLM (Large Language Models)보다 뛰어난 성능을 보였습니다.

ArtifactLinker에서 LLM 코딩 에이전트 (coding agent)는 실행 간 공유 메모리 (shared memory)를 사용하여 평가 코드를 작성하고 실행합니다.

우리는 이것이 72.6%의 확률로 공식적으로 보고된 점수의 80% 이내 수치에 도달한다는 것을 발견했습니다.

ArtifactLinker를 사용하여, 우리는 강력한 모델이 자신이 SOTA를 기록하거나 그에 근접할 수 있는 벤치마크에서 한 번도 평가되지 않았던 사례들을 발견했습니다.

또한 우리는 Gemma 와 같은 최신 LLM들이 자연어 추론 (natural language inference) 작업에서 오래된 DeBERTa 모델들에게 종종 패배한다는 사실도 발견했습니다.

우리는 51K 개의 평가 (evaluations), 파인튜닝 (fine-tunings), 그리고 참조 (references)로 연결된 14K 개의 HuggingFace 모델, 데이터셋, 논문, 코드베이스 데이터셋과 ArtifactLinker 코드를 공개합니다.

이것이 다른 사람들이 SOTA 평가 결과를 찾는 데 도움이 되기를 바랍니다.

Code:
https://github.com/allenai/artifact-linker

Data:

Insights

대부분의 모델은 존재하는 벤치마크의 극히 일부에서만 평가됩니다.

요약

핵심 포인트

댓글

이 코드를 누가 작성했는가? 감사가 시작되기 전의 AI 코드 출처 (AI Code Provenance)

Popular의 주요 2분기 실적 발표 하이라이트

streamPartialJson에서 해결된 최상위 null 값이 누락된 문제 (stream_struct 0.3.2)

Richardson Electronics 4분기 실적 발표 하이라이트

이 코드를 누가 작성했는가? 감사가 시작되기 전의 AI 코드 출처 (AI Code Provenance)

Popular의 주요 2분기 실적 발표 하이라이트

streamPartialJson에서 해결된 최상위 null 값이 누락된 문제 (stream_struct 0.3.2)

Richardson Electronics 4분기 실적 발표 하이라이트