자율 연구 (Autoresearch) 과정에서의 참신함을 측정하고 개선하는 방법

제가 매우 궁금해했던 것 중 하나는 자율 연구 (Autoresearch) 실행 시 참신함 (Novelty)을 어떻게 측정하고 개선할 것인가 하는 점입니다.

이에 다음과 같은 것을 소개합니다:
@EVO__HQ의 autoresearch-novelty-bench: 자율 연구 (Autoresearch) 실행 중 AI 에이전트가 진정으로 참신한 아이디어를 제안하는지 측정하기 위한 벤치마크 (Benchmark)입니다.

이 벤치마크는 @PrimeIntellect의 autonomous-speedrunning 아카이브를 기반으로 구축되었습니다: modded-nanogpt 스피드런 (Speedrun)에서 Claude Code와 Codex가 경주를 벌인 기록입니다. 10,000개 이상의 학습 실행 (Training runs), 600개 이상의 아이디어 기술서 (Idea writeups), 그리고 2주간의 집중적인 병렬 자율 연구 (Parallel autoresearch) 폭발적 실행을 포함하고 있습니다. 우리는 각 에이전트가 무엇을, 언제 시도했는지, 그리고 그것이 효과가 있었는지를 알고 있습니다. (스레드)

중요한 링크를 먼저 공유합니다:
데이터셋 (Dataset):

데이터셋을 가지고 직접 실험해 볼 수 있는 실험용 하네스 (Experimental harness):

이 10,000개 이상의 실행 (Runs) 각각에 대해 타임스탬프 (Timestamp), 아이디어 기술서 (Idea write up), 코드 (Codes)뿐만 아니라 생성된 LLM 요약 (Summaries), 임베딩 (Embeddings) 및 설명을 추출했습니다.

그 후 실험 데이터들을 경주의 40개 순간 (Moments)으로 스냅샷 (Snapshot) 처리하여, 상태 재현 (State reproduction)을 통해 그 중 어느 것이든 다시 재생할 수 있도록 했습니다.

또한 우리는 하이브리드 LLM 판사 (Hybrid LLM judge)를 만들었습니다: 제안된 각 아이디어는 상위 K개의 코사인 유사도 검색 (Cosine-retrieved)을 통한 과거 및 미래 데이터와 매칭되며, 등가성 (Equivalence)을 판별하는 루브릭 점수 산정 메커니즘을 사용합니다. 즉, '이것이 다른 이름으로 불리는 동일한 아이디어인가?', '이전에 시도된 적이 있는가?', '나중에 검증되었는가?', 혹은 '이 아이디어가...'

여러분이 이것을 어떻게 활용하시는지 정말 보고 싶습니다!

만약 오픈소스 자율 연구 오케스트레이터 (Opensource autoresearch orchestrator)를 사용해보고 싶다면, @EVO__HQ를 확인해 보세요.

Insights

자율 연구 (Autoresearch) 과정에서의 참신함을 측정하고 개선하는 방법

요약

핵심 포인트

댓글

aws-samples/sample-specship

NVIDIA/skills

appautomaton/latex-arxiv-SKILL

catlog22/maestro-flow

NVIDIA/skills

appautomaton/latex-arxiv-SKILL

catlog22/maestro-flow