bigset - 세상의 모든 데이터를 가지고 있다면?
요약
자연어 명령만으로 구조화된 데이터셋을 생성하고 자동 갱신하는 오픈소스 에이전트 도구 bigset을 소개합니다. 스키마 자동 추론부터 웹 조사, 데이터 검증 및 주기적 업데이트까지 데이터 수집 전 과정을 자동화합니다.
핵심 포인트
- 자연어 입력으로 스키마 추론 및 데이터셋 생성 가능
- 자율 에이전트 기반의 웹 조사 및 데이터 대조 검증
- 설정된 주기에 따른 데이터셋 자동 갱신 기능 제공
- CLI 및 CSV/XLSX 내보내기 지원
- Mastra와 Claude Sonnet을 활용한 에이전트 오케스트레이션
자연어 한 문장으로 라이브 웹에서 구조화된 데이터셋을 생성하고, 설정한 주기마다 자동 갱신하는 오픈소스 도구
-
예: "현재 엔지니어를 채용 중인 YC 기업 목록과 투자 단계, 위치, 공개 채용 수"
-
입력 문장에서
스키마를 자동 추론 - 컬럼명, 타입, 기본 키, 웹에서 찾을 위치까지 결정 -
자율 에이전트가 라이브 웹을 조사하고, 실제 출처와
대조 검증 후 중복 제거해 표로 반환 -
오케스트레이터 에이전트가 엔티티를 발견하면, 서브 에이전트가 병렬로 분산되어 각 엔티티를 조사·검증
-
결과물은
CSV / XLSX로 다운로드, UI에서 탐색 가능
갱신 주기(30분, 6시간, 12시간, 일간, 주간) 설정 시 에이전트가 일정대로 재실행되어 데이터셋을 계속 갱신 -
사람이든 AI 에이전트든 웹과의 모든 상호작용은 결국 데이터로 귀결됨 (가격, 기업, 채용, 연구, 가용성, 재고 등)
-
이 데이터는 여러 페이지에 흩어져있고, 기존 스크래핑/검색 API/LeadGen 도구가 해주지 못하는
카테고리 교차 데이터 수집 을 처리해 줌
— 검색/추출/스키마 설계/중복 제거/검증/크론 작업을 매번 직접하거나 통합 작업을 할 필요 없음
-
터미널
CLI로도 데이터셋 생성·내보내기 가능
bigset create "..." --rows 30 --wait --csv -
단, 아직 실험단계로 스키마 추론이 항상 완벽하지는 않음. 공개 데이터에만 적합
기술 스택 -
프론트엔드:
Next.js 16, React 19, Tailwind 4 -
백엔드:
Fastify, TypeScript (에이전트 러너) -
인증: 로컬 인증(개발),
Clerk(클라우드) -
데이터베이스:
Convex(self-hosted) -
데이터 수집:
TinyFish API(Search, Fetch, Browser) -
AI 오케스트레이션:
Mastra 워크플로 + Vercel AI SDK + OpenRouter → Claude Sonnet(스키마 추론 + populate 에이전트) -
테이블 뷰: TanStack Table + react-window 가상화
-
내보내기: CSV(내장) + XLSX(SheetJS, 동적 임포트)
-
분석: PostHog — 이벤트, 세션 리플레이, 오류 추적(선택)
-
AGPL-3.0 라이선스
댓글과 토론
AI 자동 생성 콘텐츠
본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기