OpenAI헤드라인2026. 05. 14. 07:33

Parameter Golf가 AI 보조 연구에 대해 우리에게 가르쳐준 것

요약

본 기사는 Parameter Golf라는 머신러닝 챌린지를 통해 얻은 통찰을 공유합니다. 이 챌린지는 참가자들이 엄격하게 제한된 자원(16MB 아티팩트, 10분 학습 예산) 내에서 모델 가중치와 코드를 최적화하여 손실을 최소화하도록 유도했습니다. 그 결과, 옵티마이저 튜닝, 양자화(Quantization), 테스트 시간 학습 등 다양한 기술적 창의성이 발휘되었으며, 특히 AI 코딩 에이전트의 광범위한 사용은 경쟁의 속도와 성격을 변화시키는 중요한 요인이었습니다.

핵심 포인트

Parameter Golf는 제한된 자원 내에서 모델 최적화 및 기술적 창의성을 극대화하는 훌륭한 플랫폼임을 입증했습니다.
양자화(Quantization) 기법(예: GPTQ-lite, full Hessian GPTQ)은 아티팩트 크기 제약 하에 강력한 성능 개선을 가져오는 핵심 전략이었습니다.
테스트 시간 학습(Test-time training)과 같은 평가 전략의 경계를 탐구하는 시도는 규칙 내에서 모델 개선 가능성을 확장했습니다.
AI 코딩 에이전트는 실험 비용을 낮추고 참여 문턱을 낮춤으로써, 머신러닝 챌린지의 속도와 규모를 근본적으로 변화시켰습니다.

우리는 새롭고 엄격하게 제한된 머신러닝 (Machine Learning) 문제를 탐구하도록 머신러닝 연구 커뮤니티를 참여시키고 지원하기 위해 Parameter Golf를 시작했습니다. 우리는 이 챌린지가 개념적으로는 단순하고 검증하기 쉬우면서도, 실제적인 기술적 창의성에 보상할 수 있을 만큼 충분히 흥미롭기를 바랐습니다.

참가자들은 모델 가중치 (Weights)와 학습 코드를 모두 포함하여 16 MB의 아티팩트 (Artifact) 제한 내에 머물면서, 고정된 FineWeb 데이터셋에 대한 홀드아웃 손실 (Held-out loss)을 최소화해야 했으며, 8×H100 환경에서 10분의 학습 예산 (Training budget)을 준수해야 했습니다. 우리는 참가자들이 저장소 (Repo)를 포크 (Fork)하고, 모델을 개선하며, GitHub를 통해 결과를 제출할 수 있도록 베이스라인 (Baseline), 데이터셋, 그리고 평가 스크립트를 제공했습니다.

8주 동안 우리는 1,000명 이상의 참가자로부터 2,000개 이상의 제출물을 받았습니다. 우리는 세심한 옵티마이저 튜닝 (Optimizer tuning) 및 양자화 (Quantization) 작업부터 새로운 모델링 아이디어와 테스트 시간 학습 (Test-time training)에 이르기까지, 제출물 전반에 나타난 기술적 폭과 창의성, 그리고 규칙을 넘나드는 시도들에 깊은 인상을 받았습니다.

이 챌린지의 가장 흥미로운 부분 중 하나는 참가자들이 AI 코딩 에이전트 (AI coding agents)를 얼마나 폭넓게 사용했는지 확인하는 것이었습니다. 에이전트는 실험 비용을 낮추는 데 도움을 주었고, 더 많은 사람이 참여하기 쉽게 만들었으며, 경쟁의 속도를 변화시켰습니다. 또한 에이전트는 제출물 검토, 기여도 산정, 그리고 점수 산정 측면에서 새로운 과제들을 만들어냈습니다.

이 챌린지는 우리에게 의미 있는 인재 발굴의 장이 되기도 했습니다. 이는 Parameter Golf의 목표 중 하나였으며, 개방형 기술 챌린지가 탁월한 머신러닝적 안목과 끈기를 드러낼 수 있다는 유용한 신호였습니다.

이 포스트에서는 우리가 놀랍고 흥미롭다고 느낀 몇몇 제출물을 강조하고, 강력한 AI 에이전트 시대에 코딩 대회를 운영하며 배운 점을 공유하고자 합니다.

우리는 레코드 트랙 리더보드 (Record-track leaderboard)에 있는 각 제출물을 심사하고 독립적으로 재현하였으며, 각 제출물이 제출된 시점에 기록을 경신했음을 확인했습니다. 몇 가지 주제가 눈에 띄었습니다.

학습 최적화 (Training optimization)

가장 강력한 결과 중 일부는 기존 구성 요소의 세심한 튜닝(tuning)에서 나왔습니다.

제출	기여자	기술	중요했던 이유
#60	@notapplica	#50, #42, 그리고 아마도 #39의 이전 승리 요인들을 결합한 후, Muon 가중치 감쇠 (weight decay), 스펙트럼 임베딩 초기화 (spectral embedding initialization), 잔차 혼합 스케줄링 (residual-mix scheduling), 그리고 컴파일된 평가 (compiled evaluation)를 통해 더 깊은 모델이 작동하도록 만듦.	규율 있는 리더보드 작업의 강력한 사례: 어떤 기존 개선 사항이 중요한지 식별하고 이를 깔끔하게 결합함.

양자화 (Quantization)

여러 제출물이 압축 (compression)과 내보내기 (export)를 강력하게 밀어붙였습니다.

제출	기여자	기술	중요했던 이유
#414	@signalrush	학습 후 가중치를 양자화하기 위해 GPTQ-lite를 사용함.	GPTQ-lite를 성공적으로 사용하여 더 나은 평가로 이어진 첫 번째 리더보드 제출물.
#1060	@dexhunter	@raahilshah의 #634를 기반으로 전체 헤시안 GPTQ (full Hessian GPTQ)를 성공적으로 사용함.	이전의 양자화 작업을 더 강력한 압축 경로로 확장함.

테스트 시점 및 평가 전략 (Test-time and evaluation strategies)

일부 제출물은 모델 개선과 평가 전략 사이의 경계를 밀어붙였습니다. 이러한 접근 방식은 규칙 하에서 유효했지만, 주최자로서의 세심한 검토가 필요했습니다.

제출	기여자	기술	중요했던 이유
#77	@samacqua	점수 우선, 문서별 LoRA 테스트 시점 학습 (test-time training) 사용: 점수를 먼저 매기고, 이미 점수가 매겨진 청크 (chunk)에서만 적응하며, 문서 경계에서 리셋함.	규칙 하에서 검토 가능한 상태를 유지하면서 모델 개선과 평가 전략 사이의 경계를 밀어붙임.
#1019	@abaybektursun	자기 생성 GPTQ 보정 (self-generated GPTQ calibration) 사용: 학습된 모델로부터 보정 텍스트를 생성한 다음, 해당 활성화 값 (activations)으로부터 GPTQ 헤시안 (Hessians)을 구축함.	주최자의 세심한 검토가 필요했던 창의적인 보정 전략.

새로운 모델링 및 데이터 아이디어 (New modeling and data ideas)

몇몇 제출물은 특히 창의적인 모델링 또는 데이터 아이디어를 도입했습니다.

제출물 | 기여자 | 기술 | 중요했던 이유 |
| #1729 | @romeerp | CaseOps 토크나이저(tokenizer) 도입: 원본 바이트 BPB 사이드카 계정을 포함한 무손실 대문자 연산자 토큰(lossless capitalization operator tokens). | 창의적인 토크나이저 및 데이터 표현 아이디어. |
| #265 | @unnir | GQA-aware 그룹 뷰(grouped views)를 활용한 효율적인 부분적 Exclusive Self Attention 방식인 XSA 도입. | 효율적인 어텐션(attention) 변형 방식을 챌린지에 도입함. |
| ... |
우리는 이 9개의 제출물을 강조하기로 선택했는데, 이는 이들이 우리가 챌린지를 통해 드러나기를 바랐던 결과의 범위를 대변하기 때문입니다. 일부 참가자들은 세심한 튜닝(tuning)을 통해 승리를 거두었습니다. 다른 이들은 양자화(quantization) 및 저계수(low-rank) 기술을 밀어붙였습니다. 일부는 평가 규칙의 경계를 탐구했습니다. 그리고 여러 명은 문헌에서 가져오거나 처음부터 직접 만든, 예상치 못한 이득을 만들어낸 모델링(modeling) 또는 데이터 아이디어를 도입했습니다.

Nonrecord 트랙에는 많은 창의적인 제출물들이 있었습니다. 우리는 비자기회적(non-autoregressive) 텍스트 모델링부터 동적 토큰화(dynamic tokenization)에 이르는 접근 방식들을 포함하여 15개의 우수 사례를 선정했습니다.

이 트랙은 보다 실험적이었기 때문에, 우리는 가공되지 않은 성능(raw performance)보다는 해당 접근 방식이 기술적으로 흥미로운지에 더 집중했습니다. 특히 세 가지 제출물이 눈에 띄었습니다:

이들은 반드시 성능 면에서 상위 3위는 아니었을지라도, 우리가 가장 선호하는 3개의 nonrecord 제출물이었습니다.

그럼에도 불구하고, nonrecord 트랙은 여전히 경쟁적이었습니다. nonrecord 리더보드 항목의 절반이 1.22 BPB라는 단순 베이스라인(naive baseline)을 능가했으며, 가장 높은 순위의 항목은 1.12 BPB에 도달했습니다.

우리는 이것을 고무적으로 생각합니다. 강력한 트랜스포머(transformer) 베이스라인에 맞서서도, 대안적인 접근 방식들이 때로는 지배적인 아키텍처(architecture)에 맞서 제 몫을 해낼 수 있음을 보여주었습니다.

또한 우리는 이 트랙이 강력한 코딩 에이전트(coding agents)의 가용성으로부터 특히 이득을 얻는다고 생각합니다. 에이전트 덕분에, 이전에는 짧은 대회에서 시도하기에 너무 시간이 많이 걸리거나 불확실하다고 느껴졌을 수도 있는 추측성 아이디어들을 프로토타이핑(prototype)하는 비용이 훨씬 저렴해졌습니다.

Parameter Golf와 이전의 유사한 대회들 사이의 주요한 차이점은 코딩 에이전트 (coding agents)의 광범위한 사용이었습니다. 제출자의 대다수가 작업 과정의 일부로 에이전트를 사용했다고 언급했습니다.

이는 진입 장벽을 낮추었습니다. 참가자들은 더 빠르게 실험을 설정하고, 익숙하지 않은 코드를 검토하며, 더 적은 마찰로 아이디어를 테스트할 수 있었습니다. 또한 RunPod이 후원한 1,000,000달러 상당의 컴퓨팅 자원 (compute) 역시 더 많은 사람들이 챌린지에 참여할 수 있도록 만드는 데 중요한 역할을 했습니다.

동시에, 에이전트 사용은 제출 및 채점 방식에 새로운 문제들을 야기했습니다. 많은 제출물들이 근본적으로 새로운 접근 방식이라기보다는 기존 상위 점수 기록자들의 코드를 조금씩 수정한 형태였습니다. 이는 종종 유용하기도 했습니다. 강력한 아이디어들이 빠르게 퍼지고 다른 이들에 의해 정교해졌기 때문입니다. 하지만 이는 노이즈 (noise)를 생성하기도 했습니다. 대회 가이드라인을 벗어난 제출물이 이례적으로 높은 점수를 기록할 때, 다른 에이전트들이 때때로 해당 아이디어를 복제하여 동일한 무효한 경로를 계속 따르는 일이 발생했습니다.

제출물의 양 또한 우리가 대회를 운영하는 방식을 변화시켰습니다. 모든 제출물을 수동으로 검토하면서 리더보드 (leaderboard)를 계속 업데이트하는 것은 불가능했습니다. 챌린지 기간 동안, 우리는 새로운 제출물을 모니터링하고 인간의 검토가 필요한 항목을 표시하기 위해 Codex 기반의 내부 분류 봇 (triage bot)을 개발했습니다. 이는 하루에 수백 개의 제출물이 들어오는 기간 동안 특히 중요해졌습니다.

AI 에이전트들은 또한 챌린지 주변의 커뮤니티의 일부가 되었습니다. 대회 기간의 상당 부분 동안, @notapplica와 그들의 코딩 에이전트는 주요 이벤트를 추적하고, 리더보드 접근 방식을 설명하며, 다른 참가자들이 대회를 따라갈 수 있도록 돕는 “라이브 업데이트 (Live Updates)” 게시판을 운영했습니다. 커뮤니티 리뷰 도구들도 등장하여 경험이 적은 참가자들이 자신의 제출물이 규칙 내에 있는지 확인하고 흔히 발생하는 무효한 접근 방식을 피할 수 있도록 도왔습니다.

우리의 주요 목표는 자격이 있는 참가자(eligible participants)(새 창에서 열기)들이 참여하여 머신러닝 (Machine Learning) 연구를 경험할 수 있는 챌린지를 시작하는 것이었습니다. Parameter Golf는 기술적으로 강력하고 창의적인 광범위한 제출물들을 불러모았으며, AI 에이전트 (AI agents)가 더욱 유능해지고 널리 사용됨에 따라 오픈 연구 경진대회 (open research competitions)가 어떻게 변화할 수 있는지에 대해 더 명확한 관점을 제공해 주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Parameter Golf가 AI 보조 연구에 대해 우리에게 가르쳐준 것

요약

핵심 포인트

댓글