본문으로 건너뛰기

© 2026 Molayo

X Home요약2026. 05. 28. 17:30

자율 연구 (Autoresearch) 과정에서의 참신함을 측정하고 개선하는 방법

요약

자율 연구(Autoresearch) 과정에서 AI 에이전트가 제안하는 아이디어의 참신함을 측정하고 개선하기 위한 새로운 벤치마크를 소개합니다. 이 벤치마크는 대규모 실험 데이터와 하이브리드 LLM 판사를 활용하여 아이디어의 독창성과 효과성을 검증합니다.

핵심 포인트

  • 자율 연구의 참신함을 측정하는 autoresearch-novelty-bench 공개
  • 10,000개 이상의 학습 실행 및 600개 이상의 아이디어 기술서 포함
  • 하이브리드 LLM 판사를 통한 아이디어의 등가성 및 참신성 판별
  • 상태 재현이 가능한 40개의 스냅샷 데이터 제공

제가 매우 궁금해했던 것 중 하나는 자율 연구 (Autoresearch) 실행 시 참신함 (Novelty)을 어떻게 측정하고 개선할 것인가 하는 점입니다.

이에 다음과 같은 것을 소개합니다:
@EVO__HQ의 autoresearch-novelty-bench: 자율 연구 (Autoresearch) 실행 중 AI 에이전트가 진정으로 참신한 아이디어를 제안하는지 측정하기 위한 벤치마크 (Benchmark)입니다.

이 벤치마크는 @PrimeIntellect의 autonomous-speedrunning 아카이브를 기반으로 구축되었습니다: modded-nanogpt 스피드런 (Speedrun)에서 Claude Code와 Codex가 경주를 벌인 기록입니다. 10,000개 이상의 학습 실행 (Training runs), 600개 이상의 아이디어 기술서 (Idea writeups), 그리고 2주간의 집중적인 병렬 자율 연구 (Parallel autoresearch) 폭발적 실행을 포함하고 있습니다. 우리는 각 에이전트가 무엇을, 언제 시도했는지, 그리고 그것이 효과가 있었는지를 알고 있습니다. (스레드)

중요한 링크를 먼저 공유합니다:
데이터셋 (Dataset):

데이터셋을 가지고 직접 실험해 볼 수 있는 실험용 하네스 (Experimental harness):

이 10,000개 이상의 실행 (Runs) 각각에 대해 타임스탬프 (Timestamp), 아이디어 기술서 (Idea write up), 코드 (Codes)뿐만 아니라 생성된 LLM 요약 (Summaries), 임베딩 (Embeddings) 및 설명을 추출했습니다.

그 후 실험 데이터들을 경주의 40개 순간 (Moments)으로 스냅샷 (Snapshot) 처리하여, 상태 재현 (State reproduction)을 통해 그 중 어느 것이든 다시 재생할 수 있도록 했습니다.

또한 우리는 하이브리드 LLM 판사 (Hybrid LLM judge)를 만들었습니다: 제안된 각 아이디어는 상위 K개의 코사인 유사도 검색 (Cosine-retrieved)을 통한 과거 및 미래 데이터와 매칭되며, 등가성 (Equivalence)을 판별하는 루브릭 점수 산정 메커니즘을 사용합니다. 즉, '이것이 다른 이름으로 불리는 동일한 아이디어인가?', '이전에 시도된 적이 있는가?', '나중에 검증되었는가?', 혹은 '이 아이디어가...'

여러분이 이것을 어떻게 활용하시는지 정말 보고 싶습니다!

만약 오픈소스 자율 연구 오케스트레이터 (Opensource autoresearch orchestrator)를 사용해보고 싶다면, @EVO__HQ를 확인해 보세요.

AI 자동 생성 콘텐츠

본 콘텐츠는 X 홈 추천 피드의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0