Onyx: 검색 권한을 제한하여 Claude와 ChatGPT를 압도한 오픈소스 딥 리서치 시스템

요약

Onyx는 컨트롤러의 검색 권한을 의도적으로 제한하여 고차원적 전략 사고를 유도하는 오픈소스 딥 리서치 시스템입니다. 이 반직관적인 설계를 통해 DeepResearch Bench에서 Claude와 ChatGPT를 능가하는 성능을 기록했습니다.

핵심 포인트

컨트롤러의 검색 권한을 박탈하여 피상적인 작업 방지
전략 조절기와 리서치 에이전트로 구성된 2계층 아키텍처
DeepResearch Bench에서 Claude 및 ChatGPT 압도
기업 내부 데이터 소스(Confluence, Slack 등) 연동 지원

이 팀의 연구는 다소 상식에 어긋나며, LLM (Large Language Model) 연구 스케줄링에 대해서도 조금은 색다른 연구를 진행하고 있습니다.

한 오픈소스 팀은 딥 리서치 (Deep Research) 시스템에서 가장 똑똑한 총지휘 조절기 (Controller)의 검색 권한을 직접 박탈하는 방식을 발견했습니다.

그 결과, 오히려 전체 시스템이 DeepResearch Bench에서 Claude와 ChatGPT를 압도하며 정점에 올라섰습니다.

이 반직관적인 설계 덕분에 Onyx는 현재 공개적으로 사용 가능한 가장 강력한 딥 리서처 (Deep Researcher)가 되었습니다.

그 이름은 Onyx이며, GitHub에서 완전히 오픈소스로 공개되어 지금 바로 실행해 볼 수 있습니다.

이야기는 단순해 보이지만, 거의 모든 빅테크 기업의 AI 에이전트 (AI Agent)가 가진 공통적인 문제를 꿰뚫고 있습니다.

OpenAI o1 시리즈를 포함하여 Anthropic과 Google의 방안을 포함한 전통적인 딥 리서치 시스템들은 조절기 (Controller)에 수많은 도구 (Tools)를 채워 넣습니다. 조절기는 웹 검색, 링크 열기, 문서 읽기, 보고서 작성까지 일련의 과정을 모두 수행할 수 있습니다.

결과는 어떨까요?

스케줄러 (Scheduler)는 검색 권한을 갖게 되면 참지 못하고 직접 손을 대기 시작합니다. 결과물을 미친 듯이 끌어오지만 수박 겉핥기식에 그치며, 고품질의 작업 분해 (Task Decomposition)를 제대로 수행하지 않습니다. 결국 최종적으로 산출되는 보고서는 언제나 피상적인 수준에 머뭅니다.

Onyx 팀은 이 치명적인 버그를 관찰한 후, 아무도 감히 시도하지 못한 일을 해냈습니다. 바로 조절기의 검색 도구를 완전히 제거해 버린 것입니다.

조절기는 오직 작업 브리프 (Task Brief)를 작성하고, 쿼리 (Query)를 분해하며, 하위 에이전트 (Agent)가 제출한 중간 보고서를 평가할 수 있을 뿐입니다. 하지만 스스로 인터넷에 접속하거나, 검색하거나, 미리 결론을 내릴 수는 없습니다.

이러한 과감한 조치는 조절기로 하여금 진정한 '고차원적 전략적 사고'를 하도록 강제합니다.

전체 아키텍처 (Architecture)는 단 두 개의 계층만 유지합니다. 상단에는 순수 전략 조절기가 있고, 하단에는 최대 6개의 독립적인 리서치 에이전트 (Research Agent)가 있습니다.

3단계 파이프라인 (Pipeline)은 매우 명확합니다.

Phase 1: 도구 권한이 없는 조절기가 하나의 복잡한 문제를 최대 6개의 집중적인 연구 방향으로 분해하고, 극도로 자기 완결적인 작업 브리프를 작성합니다.

Phase 2: 작업을 3개의 격리된 리서치 에이전트에게 배분합니다. 각 에이전트는 최대 8회의 '검색-읽기-사고' 루프를 실행하여 인용 출처가 포함된 중간 보고서를 생성합니다. 이들은 기업 내부의 Confluence, Slack 등 100개 이상의 데이터 소스에 접속할 수 있으며, 문서 수준의 권한 제어를 엄격히 준수합니다.

Phase 3: 결정론적 (Deterministic) 단계로, 모든 보고서의 중복을 제거하고 번호를 다시 매겨 통일된 인용 지도를 생성한 뒤 최종적인 고품질 보고서를 출력합니다.

조절기가 전 과정 동안 원시 데이터 (Raw Data)를 건드리지 않기 때문에, '첫 번째 결과를 보고 작업을 끝내고 싶어 하는' 유혹에 오염되지 않습니다. 또한 정보가 단 두 개의 계층을 통해서만 전달되므로, 다층 요약 과정에서 정보가 왜곡되지 않습니다.

그 결과 Onyx는 DeepResearch Bench에서 1위를 차지하며 폐쇄형 모델인 Claude와 ChatGPT를 전면적으로 넘어섰습니다.

더 놀라운 점은 기업 내부 지식 베이스 (Knowledge Base)에 원활하게 연결할 수 있다는 것인데, 이는 많은 유료 솔루션조차 해내지 못하는 부분입니다.

오늘 밤 바로 테스트해 볼 수 있습니다.

Onyx GitHub 저장소 링크로 가서 Star를 누른 뒤, README 파일에 따라 전체 시스템을 실행해 보세요. CrewAI로 전체 오케스트레이션 (Orchestration)을 수행하고, Mistral의 Voxtral로 음성 입출력을 구현하면 완전히 오픈소스인 최상급 딥 리서처를 복제할 수 있습니다.

전체 프레임워크는 100% 오픈소스이며, 아키텍처 세부 사항, 파이프라인 (Pipeline), 코드, 실험 데이터가 모두 저장소에 있습니다.

빅테크 기업들이 여전히 '모델에 더 많은 도구와 더 많은 컨텍스트 (Context)를 집어넣는 것'에 매몰되어 있을 때, Onyx는 '의도적으로 거세된' 조절기를 통해 가장 똑똑한 제약 (Constraint)이야말로 종종 가장 강력한 능력이 된다는 것을 모두에게 보여주고 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Onyx: 검색 권한을 제한하여 Claude와 ChatGPT를 압도한 오픈소스 딥 리서치 시스템

요약

핵심 포인트

댓글