몇 시간 동안 작동하는 에이전트를 발견했습니다

요약

ByteDance에서 공개한 DeerFlow는 단순한 프레임워크를 넘어 실행 환경(runtime)을 제공하는 에이전트 시스템입니다. LangGraph와 LangChain을 기반으로 하며, 하위 에이전트 생성, 자체 실행 환경, 컨텍스트 엔지니어링을 통해 장시간 자율적인 작업 수행이 가능합니다.

핵심 포인트

단순 도구 호출을 넘어 파일 시스템과 셸 명령을 사용하는 실제 실행 환경 제공
리드 에이전트가 작업을 분해하여 병렬로 실행하는 하위 에이전트 구조 채택
컨텍스트 격리 및 요약 기술을 통해 장시간 실행 시 발생하는 토큰 문제 해결
사용자 프로필과 선호도를 로컬에 저장하는 지속적인 메모리 기능 지원

75k★, MIT, DeerFlow: ByteDance

몇 주 동안 여러분의 피드는 반복되는 한 문장으로 가득했습니다: 프롬프팅을 멈추고, 시스템을 구축하며, 당신이 잠든 동안 몇 시간 동안 작동하는 에이전트를 만드세요. 그중 대부분은 말뿐이었습니다. DeerFlow는 실제로 복제(clone)할 수 있는 부분입니다.

이것은 ByteDance의 프로젝트이며, MIT 라이선스를 따르고, 방금 별(star) 75,000개를 돌파했습니다. 버전 2.0은 GitHub 트렌딩 1위를 차지한 완전히 새로 작성된 버전입니다. 그리고 이것이 왜 중요한지를 설명하는 단 한 단어는 저자들이 선택한 단어인 'harness(하네스/장착)'입니다.

'harness'가 실제로 의미하는 것

대부분의 에이전트 프로젝트는 프레임워크(framework)입니다. 즉, 당신이 직접 조각들을 연결해야 합니다. DeerFlow는 런타임(runtime)을 제공합니다. 설치 즉시 에이전트에게 파일 시스템(filesystem), 장기 기억(long-term memory), 샌드박스(sandbox), 기술 라이브러리(library of skills), 그리고 계획을 세우고 하위 에이전트(sub-agents)를 생성하는 능력을 부여합니다. LangGraph와 LangChain을 기반으로 구축되었지만, 당신이 직접 조립할 필요는 없습니다. make setup을 실행하고 2분짜리 마법사(wizard)의 질문에 답하기만 하면, 인프라(infrastructure)를 갖춘 에이전트를 갖게 됩니다.

그 차이가 핵심입니다. 도구를 가진 챗봇(chatbot)은 API를 호출할 수 있습니다. 하지만 하네스(harness)를 가진 에이전트는 컴퓨터를 가집니다.

중요한 요소들

하위 에이전트(Sub-agents). 리드 에이전트(lead agent)는 하나의 컨텍스트(context) 안에서 모든 것을 하려고 하지 않습니다. 작업을 분해하고 즉석에서 하위 에이전트를 생성하며, 각 에이전트는 자신만의 범위가 지정된 컨텍스트, 자신만의 도구, 자신만의 중단 조건(stop condition)을 가집니다. 이들은 병렬로 실행되어 구조화된 결과(structured results)를 보고하고, 리드 에이전트가 이를 종합합니다. 이것이 하나의 요청이 "다양한 관점을 조사하는 수십 명의 에이전트, 그리고 그들이 하나의 보고서, 웹사이트, 또는 슬라이드 덱으로 수렴하는 과정"으로 변하는 방식입니다. 하나의 하네스, 수많은 손. 이것이 내부적으로 "몇 분에서 몇 시간 동안 작동한다"는 말의 실제 의미입니다.

자체 컴퓨터. 모든 작업에는 실제 실행 환경(execution environment)이 주어집니다. 업로드가 가능한 파일 시스템, 작업 공간(workspace), 그리고 출력(outputs) 폴더가 포함됩니다. 에이전트는 격리된 컨테이너(isolated containers) 내부에서 파일을 읽고, 쓰고, 편집하며, 이미지를 보고, 셸 명령(shell commands)을 실행합니다. 단순한 "도구 접근(tool access)"이 아닙니다. 에이전트가 조작하는 실제 기계입니다.

컨텍스트 엔지니어링(Context engineering). 장시간 에이전트 실행을 방해하는 것은 컨텍스트 윈도우입니다. DeerFlow는 이를 의도적으로 극복합니다: 서브 에이전트들은 서로의 노이즈에 잠기지 않도록 격리되며, 완료된 서브 태스크는 요약되고, 중간 결과물은 파일 시스템으로 오프로드되며, 스킬(skills)은 작업이 필요할 때만 점진적으로 로드됩니다. 이것이 40개 메시지에 도달했을 때 무너지는 대신 토큰에 민감한 모델에서도 선명함을 유지하는 이유입니다.

메모리(Memory). 대부분의 에이전트는 채팅이 끝나는 순간 모든 것을 잊어버립니다. DeerFlow는 세션 전반에 걸쳐 사용자 프로필, 선호 사항, 스택을 로컬에 저장하여 지속적인 메모리를 유지합니다. 더 많이 사용할수록 사용자의 스타일을 더 잘 알게 됩니다.

휴대폰에서 실행하세요. 이것이 저평가된 기능입니다. DeerFlow는 Telegram, Slack, Discord, Feishu, WeChat, DingTalk 등에서 작업을 가져올 수 있으며 공용 IP 주소가 필요하지 않습니다. 휴대폰으로 작업 내용을 문자로 보내면, 사용자의 기기에서 수십 개의 서브 에이전트를 작동시키고 결과를 문자 메시지로 돌려줍니다. 이것이 사람들이 계속 올리는 '휴대폰으로 수십 개의 PR(Pull Request)을 배포하는' 워크플로우이며, 오픈 소스 박스 형태로 사용자 본인이 소유할 수 있습니다.

솔직히 말하자면

이것은 공용 서버에 켜두는 장난감이 아닙니다. DeerFlow는 시스템 명령을 실행하고 파일 읽기 및 쓰기를 설계상 수행하므로, 로컬호스트(localhost)에 잠겨 배포되며 문서에서도 이를 명확하게 언급합니다: 신뢰할 수 있는 환경에 배포하거나 실제 인증 게이트웨이 뒤에 두어야 합니다. 또한 진정한 하드웨어 자원을 요구합니다 – 심각한 다중 에이전트 실행을 위해서는 8 vCPU와 16 GB RAM이 필요하며, 2 GB 드롭렛(droplet)으로는 부족합니다. 이것은 인프라이며, 인프라처럼 취급되기를 원합니다.

시간을 투자할 가치가 있는 이유

모두가 어떤 모델이 가장 똑똑한지에 대해 논쟁하고 있습니다. DeerFlow는 모델 자체가 병목 지점이 아니었으며, 그 주변의 하우징(harness)이 문제였다는 베팅입니다. 메모리, 파일 시스템, 샌드박스 실행, 서브 에이전트 오케스트레이션, 공격적인 컨텍스트 관리. 똑똑한 자동 완성 기능을 실제로 몇 시간 동안 지속되는 작업을 완료하는 무미건조하지만 필수적인 인프라입니다.

만약

AI 자동 생성 콘텐츠

원문 바로가기

몇 시간 동안 작동하는 에이전트를 발견했습니다

요약

핵심 포인트

댓글