DeepSeek 연구원의 AutoResearch 프로토콜 오픈소스 공개 및 Self-play 연구 요약

요약

DeepSeek 연구원이 자율적인 RL 연구 폐쇄 루프를 실행하는 AutoResearch 프로토콜을 오픈소스로 공개했습니다. 이 시스템은 실험 설계부터 디버깅까지 인간의 개입 없이 수행하며, Self-play를 통한 지속 학습의 가능성을 제시합니다.

핵심 포인트

285B 모델 기반의 자율적 RL 연구 폐쇄 루프 구현
파일 시스템 기반의 상태 지속화 및 엔지니어링 규범 적용
Self-play를 통한 인간의 선험적 지식 한계 극복
장애 대응을 위한 다층 와치독 및 정체 감지 메커니즘

이것은 아마도 제가 최근에 본 것 중 가장 깊이 연구할 가치가 있는 기술 (skills) 오픈소스이자 엔지니어링 스캐폴딩 (engineering scaffolding)일 것입니다. 마지막에 정리된 5가지 엔지니어링 아이디어는 여러분이 바로 가져다 쓰실 수 있습니다.

DeepSeek 연구원 Deli Chen이 그의 AutoResearch 프로토콜을 오픈소스로 공개했으며, 동시에 Self-play에 관한 리뷰 논문(네 번째)을 발표했습니다.

가장 놀라운 점은...

⚠️ 그의 에이전트 (agent)가 처음으로 285B 모델 위에서 실험 설계, 코드 작성, GPU 작업 제출, 디버깅 (debug), 결론 도출에 이르기까지 전체 RL (강화학습) 연구 폐쇄 루프 (closed loop)를 완전히 자율적으로 (autonomously) 실행했다는 것입니다. 전 과정에서 인간의 개입이 전혀 없었습니다.

코드를 작성하는 것과 연구 폐쇄 루프를 완수하는 것은 별개의 문제입니다. 마치 요리법을 배우는 것과 매일 안정적인 음식을 내놓는 레스토랑을 운영하는 것의 차이와 같습니다. 단순히 요리 한 접시의 차이가 아니라, 주방 전체의 프로세스 차이입니다.

논문의 결론은 댓글창에 남겨두겠습니다.

AutoResearch의 핵심은 사실 Python 코드가 아니라 하나의 SKILL.md 파일입니다.

그 안에는 장기간 무인 운영되는 작업을 위한 일련의 엔지니어링 규범이 규정되어 있습니다:
매 반복 (iteration)마다 새로운 세션 (session)을 시작하고 엄선된 상태 파일만 주입할 것; 모든 상태는 파일 시스템 (file system)을 통해 지속화 (persistence)할 것; 3단계 하트비트 와치독 (heartbeat watchdog)을 통해 장애 발생 시 자동으로 재시작할 것; 새로운 발견이 연속적으로 없으면 강제로 구조화할 것.

논문에는 오픈소스 자체보다 더 가치 있는 두 가지 통찰 (insight)이 있습니다.

첫째: 선험적 지식 (prior knowledge)은 때때로 바닥이 아니라 천장이다.

AlphaZero에서 영감을 받은 핵심 관점은 다음과 같습니다: 인간이 제공하는 '최선의 실천 (best practice)'과 '전문가 경험'은 종종 시스템을 국소 최적해 (local optimum)에 고착시킵니다. Self-play의 힘은 스스로와 대결하며 인간이 생각하지 못한 경로를 탐색할 수 있다는 점에 있습니다.

과거의 연구에서 인간은 한 단계씩 지켜보는 운영자였습니다.

이제 에이전트는 '실험-실행-디버깅-요약'이라는 순환 과정을 스스로 완수할 수 있으며, 인간의 역할은 감독 (director)으로 변하고 있습니다: 큰 방향을 정하고, 경계 조건 (boundary conditions)을 설정하며, 무엇이 성공인지 정의하고, 평가 기준을 설계하는 역할입니다.

Deli는 이것이 그들의 지속 학습 (Continual Learning) 여정의 시작이라고 말했습니다.

미래에 진정으로 대단한 사람은 AI를 사용할 줄 아는 사람이 아니라...

바로 사용할 수 있는 엔지니어링 아이디어:

상태 (state)를 대화 기록에만 의존하지 말고, 파일 시스템을 통해 지속화하며 새로운 반복 시 필요한 상태만 주입할 것
정체 (stall) 감지 및 강제 피벗 (pivot) 메커니즘을 구축할 것. 진전이 없으면 파라미터 (parameter)를 추가하는 것이 아니라 프레임워크 (framework)를 바꿀 것
실행과 검증을 분리할 것. 중요한 작업은 동일한 시스템이 수행과 평가를 동시에 하게 하지 말 것
다층 와치독 (watchdog)을 구축할 것. 핵심 에이전트가 다운되어도 외부 스크립트가 다시 일으켜 세울 수 있어야 함
새로운 세션 (Fresh session)

AI 자동 생성 콘텐츠

원문 바로가기