HuggingFace헤드라인2026. 05. 07. 02:04

NeurIPS 2025 E2LM 경연 대회 발표: 언어 모델의 초기 단계 평가

요약

본 기술 기사는 NeurIPS 2025 E2LM 경연 대회를 소개하며, LLM의 초기 학습 단계(특히 과학적 지식 분야)에서 의미 있는 추론 및 지식을 포착하는 새로운 평가 벤치마크 구축을 목표로 합니다. 참가자들은 Hugging Face Space를 통해 솔루션을 제출하고, '신호 품질 점수', '순위 일관성 점수', '과학적 지식 준수 점수' 세 가지 기준에 가중치를 적용하여 최종 글로벌 점수를 얻게 됩니다. 이 대회는 LLM의 초기 학습 과정에서 기존 벤치마크가 놓쳤던 핵심 신호를 발견하는 데 중점을 두고 있습니다.

핵심 포인트

LLM 개발 초기에 발생하는 '초기 학습 단계'를 평가하기 위한 새로운 벤치마크 구축에 초점을 맞춥니다.
평가는 단순히 성능 점수 외에, 과학적 지식 도메인과의 정렬 및 잠재 정보 누출 탐지 등 체계적인 검증 절차를 포함합니다.
최종 글로벌 점수는 신호 품질(Score SQ), 순위 일관성(Score RC), 과학적 지식 준수(Score CS) 세 가지 기준의 가중 합으로 계산됩니다 (가중치: 0.5, 0.1, 0.4).
참가자들은 Hugging Face Space를 통해 솔루션을 제출하며, 일부 핵심 체크포인트는 경연 기간 동안 숨겨져 공정한 평가 환경을 유지합니다.
대회 일정은 워밍업(7/14-8/17), 개발(8/18-10/26), 최종 단계(10/27-11/3)로 명확하게 구분되어 있습니다.

LLM 의 초기 단계 추론 및 과학적 지식을 포착하는 벤치마크를 구축해 가세요!

대규모 언어 모델 (LLM) 개발은 일반적으로 다양한 모델 아키텍처, 데이터 혼합, 학습 하이퍼파라미터를 체계적으로 평가하는 일련의 Ablation 실험으로 시작합니다. 이 단계는 일반적으로 초기 학습 단계라고 불립니다. 이 기간 동안 연구자들은 주로 두 가지 핵심 지표를 모니터링합니다: 훈련 손실 곡선과 평가 점수. 그러나 기존 평가 벤치마크는 LLM 이 토큰 수 ~200B 토큰에 몇 개의 토큰으로 학습되는 초기 단계에서 의미 있는 또는 구별 신호를 제공하지 못하여 실험에서 결론을 도출하는 것이 어렵습니다.

이 경연 대회에서는 LLM 의 초기 학습 단계, 특히 과학적 지식 분야에서 관련 신호를 효과적으로 포착하기 위해 새로운 벤치마크를 함께 구축하고 싶습니다.

경연 대회는 전용 Hugging Face 조직에서 개최됩니다. 경연 대회에 등록하려면 아래 링크를 따라주세요 👉 https://e2lmc.github.io/registration. 참가자들은 lm-evaluation-harness 라이브러리를 통해 HuggingFace Space 를 사용하여 솔루션을 제출해야 합니다. 경연 기간 동안 활성 리더보드를 유지하여 유망한 제출물을 추적합니다. 모델 크기는 무료 계층 Google Colab GPU 에서 누구나 쉽게 실행할 수 있도록 합니다. 또한 경연 대회 시작을 위한 종합 키트를 제공하며, 몇 개의 노트북이 포함되어 있습니다.

각 제출물은 세 가지 다른 점수로 평가됩니다: 신호 품질 점수 (Score SQ),
순위 일관성 점수 (Score RC), 과학적 지식 준수 점수 (Score CS). 이 기준들은 최종 순위용 글로벌 점수에 통합됩니다. 또한 모든 제출물에 대해 두 가지 검증 절차가 체계적으로 적용됩니다: (i) 확립된 과학적 지식 도메인과의 정렬 확인, 및 (ii) 잠재 정보 누출 탐지, 특히 질문 프롬프트 내 답변의 존재.

전체 점수는 가중 합으로 계산됩니다:
CS = α1 × Score SQ + α2 × Score RC + α3 × Score CS
여기서, αSQ, αRC 와 αCS 는 각 기준의 상대적 중요성을 반영하는 가중치 계수입니다. 우리는 신호 품질과 과학적 지식 준수를 더 강조하며, 제출물 평가에서 가장 중요한 지표라고 생각합니다. 따라서 가중치를 α1 = 0.5, α2 = 0.1 과 α3 = 0.4 로 설정합니다.

참가자들은 제공된 세 가지 소형 언어 모델 (0.5B, 1B 와 3B) 의 체크포인트와 accompanying scoring algorithm (시작 키트에 포함된 노트북에 제공됨) 을 사용하여 신호 품질 부분 점수를 로컬로 계산할 수 있습니다 (0~200B 토큰 범위). 반면, 다른 두 가지 부분 점수는 독립적으로 계산할 수 없으며, 200B GT 에서 1T 토큰으로, 웹 데이터에만 훈련된 0.5 억 파라미터 모델의 체크포인트는 경연 기간 동안 숨겨져 있습니다. 그럼에도 불구하고, 제출을 통해 Hugging Face 경연 공간에서 글로벌 점수를 자동으로 계산하여 참가자가 전체 성능을 추적할 수 있습니다. 이 설정은 공개된 체크포인트에 특화한 과도하게 커스터마이징 솔루션을 방지하기 위한 것입니다.

각 평가 지표에 대한 자세한 내용과 최첨단 벤치마크에서의 전체 점수 결과는 대회 제안서에서 확인할 수 있습니다.

🥇
1 위: 6,000 USD - 🥈
2 위: 4,000 USD - 🥉
3 위: 2,000 USD - 🎓
학생상: 학생 자격을 입증하여 제출한 상위 2 개의 솔루션에 대해 참가자로부터 수여되는 2 x 2,000 USD

문의 사항 및 지원은 e2lmc@tii.ae 로 과제 조정자에게 연락하세요. 또한 여기에서 우리의 디스코드 채널에 참여하여 직접 소통할 수도 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

NeurIPS 2025 E2LM 경연 대회 발표: 언어 모델의 초기 단계 평가

요약

핵심 포인트

댓글