본문으로 건너뛰기

© 2026 Molayo

GeekNews헤드라인2026. 06. 23. 09:36

bigset - 세상의 모든 데이터를 가지고 있다면?

요약

자연어 명령만으로 구조화된 데이터셋을 생성하고 자동 갱신하는 오픈소스 에이전트 도구 bigset을 소개합니다. 스키마 자동 추론부터 웹 조사, 데이터 검증 및 주기적 업데이트까지 데이터 수집 전 과정을 자동화합니다.

핵심 포인트

  • 자연어 입력으로 스키마 추론 및 데이터셋 생성 가능
  • 자율 에이전트 기반의 웹 조사 및 데이터 대조 검증
  • 설정된 주기에 따른 데이터셋 자동 갱신 기능 제공
  • CLI 및 CSV/XLSX 내보내기 지원
  • Mastra와 Claude Sonnet을 활용한 에이전트 오케스트레이션

자연어 한 문장으로 라이브 웹에서 구조화된 데이터셋을 생성하고, 설정한 주기마다 자동 갱신하는 오픈소스 도구

  • 예: "현재 엔지니어를 채용 중인 YC 기업 목록과 투자 단계, 위치, 공개 채용 수"

  • 입력 문장에서
    스키마를 자동 추론 - 컬럼명, 타입, 기본 키, 웹에서 찾을 위치까지 결정

  • 자율 에이전트가 라이브 웹을 조사하고, 실제 출처와
    대조 검증 후 중복 제거해 표로 반환

  • 오케스트레이터 에이전트가 엔티티를 발견하면, 서브 에이전트가 병렬로 분산되어 각 엔티티를 조사·검증

  • 결과물은
    CSV / XLSX로 다운로드, UI에서 탐색 가능
    갱신 주기(30분, 6시간, 12시간, 일간, 주간) 설정 시 에이전트가 일정대로 재실행되어 데이터셋을 계속 갱신

  • 사람이든 AI 에이전트든 웹과의 모든 상호작용은 결국 데이터로 귀결됨 (가격, 기업, 채용, 연구, 가용성, 재고 등)

  • 이 데이터는 여러 페이지에 흩어져있고, 기존 스크래핑/검색 API/LeadGen 도구가 해주지 못하는
    카테고리 교차 데이터 수집 을 처리해 줌

— 검색/추출/스키마 설계/중복 제거/검증/크론 작업을 매번 직접하거나 통합 작업을 할 필요 없음

  • 터미널
    CLI로도 데이터셋 생성·내보내기 가능
    bigset create "..." --rows 30 --wait --csv

  • 단, 아직 실험단계로 스키마 추론이 항상 완벽하지는 않음. 공개 데이터에만 적합
    기술 스택

  • 프론트엔드:
    Next.js 16, React 19, Tailwind 4

  • 백엔드:
    Fastify, TypeScript (에이전트 러너)

  • 인증: 로컬 인증(개발),
    Clerk(클라우드)

  • 데이터베이스:
    Convex(self-hosted)

  • 데이터 수집:
    TinyFish API(Search, Fetch, Browser)

  • AI 오케스트레이션:
    Mastra 워크플로 + Vercel AI SDK + OpenRouter → Claude Sonnet(스키마 추론 + populate 에이전트)

  • 테이블 뷰: TanStack Table + react-window 가상화

  • 내보내기: CSV(내장) + XLSX(SheetJS, 동적 임포트)

  • 분석: PostHog — 이벤트, 세션 리플레이, 오류 추적(선택)

  • AGPL-3.0 라이선스

댓글과 토론

AI 자동 생성 콘텐츠

본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0