Matano (YC W23) 출시: AWS를 위한 오픈 소스 보안 데이터 레이크 플랫폼 (SIEM)
요약
Matano는 AWS 환경을 위한 오픈 소스 보안 데이터 레이크 플랫폼으로, 기존 SIEM의 높은 비용과 확장성 문제를 해결합니다. 벤더 종속성을 탈피하여 S3와 같은 객체 스토리지에서 보안 로그를 효율적으로 분석할 수 있도록 돕습니다.
핵심 포인트
- 기존 SIEM(Splunk, Elastic)의 높은 비용 및 확장성 한계 극복
- AWS 환경에 최적화된 벤더 중립적 보안 데이터 레이크 제공
- 데이터 레이크 기술을 활용한 비용 효율적인 보안 로그 분석
- 독점적 데이터 형식으로 인한 벤더 종속성(Lock-in) 문제 해결
안녕하세요 HN! 저희는 Matano (https://matano.dev)의 공동 창업자인 Shaeq와 Samrose입니다. Matano는 귀하의 AWS 계정에 배포되는 벤더 중립적(vendor-agnostic) 보안 데이터 레이크 (security data lake)를 중심으로 구축된, 기존 SIEM (예: Splunk, Elastic)을 대체할 수 있는 고성능·저비용 대안입니다.
걱정 마세요 — 이 전문 용어들은 곧 설명해 드리겠습니다.
SIEM은 “보안 정보 및 이벤트 관리 (Security Information and Event Management)”의 약자로, 보안 팀이 조직의 보안 로그(네트워크, 호스트, 클라우드, SaaS 감사 로그 등)로부터 위협을 탐지하고 이에 대한 경고를 보내는 데 사용하는 로그 관리 도구를 의미합니다. 보안 엔지니어는 의심스러운 활동을 탐지하기 위해 SIEM 내부에 쿼리(query) 형태로 탐지 규칙(detection rules)을 작성하고 경고를 생성합니다. 예를 들어, 보안 엔지니어는 각 CloudTrail 로그의 필드를 확인하여 S3 버킷이 퍼블릭 액세스 권한으로 수정될 때마다 경고를 생성하는 탐지 규칙을 작성함으로써 데이터 유출 (data exfiltration)을 방지할 수 있습니다.
보안 데이터를 분석하는 데 사용되는 기존 SIEM 도구들 (예: Splunk, Elastic)은 클라우드 환경의 보안 팀이 관리하기 어렵습니다. 대부분 Elasticsearch와 같은 NoSQL 데이터베이스나 검색 엔진을 기반으로 구축되었기 때문에 확장성 (scale)을 갖추기 어렵습니다. 또한 비용이 많이 듭니다 — 엔터프라이즈 SIEM 벤더들은 데이터 수집량 기반 (ingest-based)의 값비싼 라이선스를 요구합니다. SaaS 및 클라우드 환경의 보안 데이터는 수백 테라바이트를 초과할 수 있기 때문에, 팀들은 만족스럽지 못한 선택지들 사이에 놓이게 됩니다: 일부 데이터를 수집하지 않거나, 일부 데이터를 처리하지 않은 채로 두거나, 엔터프라이즈 벤더에게 터무니없이 높은 비용을 지불하거나, 아니면 데이터 저장(일명 “데이터 레이크 (data lake)”)을 위한 자체 대규모 솔루션을 구축해야 합니다.
Apple, HSBC, Brex와 같은 기업들은 후자를 선택합니다. 즉, 막대한 비용을 들이지 않고 보안 데이터를 분석하기 위해 자체적인 보안 데이터 레이크 (security data lake)를 구축합니다. “데이터 레이크 (Data lake)”는 표준 데이터베이스에 보관하기에는 너무 큰 이기종 데이터 (heterogeneous data)를 의미하며, S3와 같은 객체 스토리지 (object storage)에서 직접 분석하는 것을 말합니다. “보안 데이터 레이크 (security data lake)”는 보안 로그를 파싱 (parsing) 및 정규화 (normalization)하여 공통된 구조로 만든 뒤, 비용 효율적인 분석을 위해 객체 스토리지에 저장하는 저장소입니다. 자체 데이터 레이크를 구축하는 것은 비용을 정당화할 수 있을 만큼 규모가 크다면 좋은 선택지이지만, 대부분의 기업은 그럴 여력이 없습니다.
다음으로는 벤더 종속 (vendor lock-in) 문제가 있습니다. SIEM 벤더들은 데이터를 독점적인 형식 (proprietary formats)으로 저장하여, 해당 생태계 외부에서 사용하기 어렵게 만듭니다. 데이터 레이크 기술을 활용하는
우리는 Amazon과 Duo Security에서 페타바이트(petabyte) 규모의 데이터 플랫폼을 구축할 때 이 문제에 직면했습니다. 대부분의 보안 팀은 보안 데이터 레이크 (security data lake)를 자체적으로 구축하거나 현대적인 분석 도구 (analytics tools)를 활용할 자원이 부족하며, 이로 인해 클라우드 이전 시대의 레거시 SIEM 도구들에 갇혀 있다는 사실을 깨달았습니다.
우리는 AWS에서의 직업을 그만두고, 보안 팀이 현대적인 데이터 스택 (modern data stack, 예: Spark, Athena, Snowflake)을 활용하고 조직 전반의 모든 이질적인 소스 (disparate sources)로부터 발생하는 보안 데이터를 효율적으로 분석할 수 있도록 돕는 오픈 소스 (OSS) 플랫폼을 구축함으로써, 이 두 세계 사이의 간극을 메우기 위해 Matano를 시작했습니다.
Matano를 사용하면 다양한 소스로부터 페타바이트 규모의 보안 및 로그 데이터를 수집(ingest)하고, 이를 개방형 데이터 레이크에 저장 및 쿼리(query)하며, 실시간 알림을 위한 '코드로서의 Python 탐지 (Python detections as code)'를 생성할 수 있습니다.
Matano는 비정형 보안 로그를 사용자의 AWS 계정 내에 있는 구조화된 실시간 데이터 레이크로 정규화 (normalizing)하는 방식으로 작동합니다. 모든 데이터는 비용 효율적인 보관 및 페타바이트 규모의 분석을 위해 S3 객체 스토리지 (S3 object storage) 내에 최적화된 Parquet 파일로 저장됩니다. 벤더 종속 (vendor lock-in)을 방지하기 위해, Matano는 새로운 오픈 테이블 포맷 (open table format)인 Apache Iceberg를 사용합니다. 이를 통해 사용자는 자신의 분석 스택 (Athena, Snowflake, Spark 등)을 가져와 데이터를 복사할 필요 없이 다양한 도구에서 데이터를 쿼리할 수 있습니다. Elastic Common Schema (ECS)에 따라 필드를 정규화함으로써, 데이터 레이크 전체에서 지표 (indicators)를 쉽게 검색하고, 공통 필드를 기준으로 피벗 (pivot)하며, 벤더 형식에 구애받지 않는 탐지 규칙을 작성할 수 있도록 지원합니다.
우리는 인기 있는 SaaS, 클라우드 (Cloud), 호스트 (Host), 네트워크 (Network) 소스 및 커스텀 JSON/CSV/Text 로그 소스로부터 보안 로그를 가져오기 위한 네이티브 통합 (native integrations)을 지원합니다. Matano에는 내장된 로그 변환 파이프라인 (log transformation pipeline)이 포함되어 있어, 추가적인 도구 (예: Logstash, Cribl) 없이도 Vector Remap Language (VRL)를 사용하여 수집 시점에 로그를 쉽게 파싱(parse)하고 변환할 수 있습니다.
Matano는 detection-as-code (코드로서의 탐지) 방식을 사용하여 Python으로 로그 데이터에 대한 실시간 알림 (realtime alerting)을 구현할 수 있게 하며, Git을 통해 규칙을 관리함으로써 표준 개발 관행 (test, code review, audit)을 사용할 수 있도록 합니다. 이벤트와 알림 간의 상관관계를 분석하는 고급 탐지 (Advanced detections)는 SQL을 사용하여 작성할 수 있으며 정기적으로 실행할 수 있습니다.
우리는 탄력적인 수평 확장 (elastic horizontal scaling)을 위해 Lambda, S3, SQS와 같은 기술을 사용하여 Matano를 완전히 서버리스 (serverless)로 구축했습니다. 또한 고성능을 위해 Rust와 Apache Arrow를 사용합니다. Matano는 기존의 데이터 스택과 잘 작동하여, 시각화를 위해 Tableau, Grafana, Metabase 또는 Quicksight와 같은 도구를 연결할 수 있고, 분석을 위해 Snowflake, Athena 또는 Trino와 같은 쿼리 엔진 (query engines)을 사용할 수 있습니다.
Matano는 Apache-2.0 라이선스 하에 제공되는 무료 오픈 소스 소프트웨어입니다. 개방형 테이블 (open table) 및 공통 스키마 (common schema) 표준을 사용함으로써, 귀하는 벤더 중립적인 (vendor neutral) 형식으로 보안 데이터에 대한 완전한 소유권을 가질 수 있습니다. 우리는 기업용 및 협업 기능을 포함한 클라우드 제품을 제공함으로써 수익을 창출할 계획이며, 이를 통해 Matano를 SIEM의 완전한 대체제로 사용할 수 있도록 할 것입니다.
더 자세히 알고 싶다면, 문서 (https://matano.dev/docs), GitHub 저장소 (https://github.com/matanolabs/matano)를 확인하거나 웹사이트 (https://matano.dev)를 방문해 주세요.
SIEM, 보안 데이터 도구, 그리고 여러분이 공유하고 싶은 모든 경험에 대해 듣고 싶습니다!
AI 자동 생성 콘텐츠
본 콘텐츠는 HN OpenAI Codex의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기