Tombstone vs Unleash vs Flagsmith vs Flipt vs GrowthBook: 기능 플래그 (Feature Flag)

저는 오랫동안 기능 플래그 (feature flags)를 사용하여 개발해 왔으며, 대부분의 주요 도구들을 사용해 보았습니다. 이 비교 글은 결국 자신만의 도구를 직접 구축하게 된 사람의 관점에서 작성되었습니다. 이는 다른 도구들이 나빠서가 아니라, 그 어떤 도구도 제가 계속해서 던졌던 질문에 답을 주지 못했기 때문입니다: '현재 운영 환경(production)에서 발생하고 있는 일에 대해, 나의 5,000개 활성 플래그 중 어떤 것이 책임을 지고 있는가?'

온라인에서 찾을 수 있는 대부분의 비교 자료는 시대에 뒤떨어져 있거나, 특정 업체가 작성했거나, 혹은 단순히 "플래그 값을 어떻게 전달할 것인가?"라는 차원만을 비교합니다. 그 차원도 중요합니다. 하지만 규모가 커지면, 밤잠을 설치게 만드는 것은 그 차원이 아닙니다.

비교 매트릭스 (The Comparison Matrix)

기능 (Capability)	Tombstone	Unleash	Flagsmith	Flipt	GrowthBook
플래그 CRUD + 타겟팅 규칙 (Flag CRUD + targeting rules)	✅	✅	✅	✅	✅
...

각 도구를 선택해야 하는 시점

Unleash는 가장 잘 자리 잡은 오픈 소스 (open-source) 플래그 플랫폼입니다. 거대한 커뮤니티, 탄탄한 문서화, 그리고 호스팅된 클라우드 (hosted cloud) 옵션을 갖추고 있습니다. 저는 운영 리스크를 최소화하면서 검증되고 문서화가 잘 된 시스템을 원할 때, 특히 기능 플래그 (feature flags)를 처음 접하는 팀이라면 Unleash를 선택할 것입니다. 약점은 순수한 전달 시스템 (delivery system)이라는 점입니다. 여러분의 플래그가 운영 환경에서 무엇을 하고 있는지에 대해서는 아무것도 알려주지 않습니다.

Flagsmith는 훌륭한 개발자 경험 (developer experience)과 깔끔한 SDK를 제공합니다. 호스팅된 클라우드 옵션은 가격이 합리적입니다. 저는 기능 플래그 (feature flags)와 원격 구성 (remote config)을 하나의 시스템에서 사용하고자 하는 팀에게 특히 유용하다는 것을 발견했습니다. Unleash와 마찬가지로, 전달 단계에서 멈추며 안전 계층 (safety layer)이 없습니다.

Flipt는 GitOps를 매우 중요하게 생각하는 팀을 위한 선택입니다. YAML-as-code를 진지하게 다루는 유일한 다른 도구이며, 훌륭한 Kubernetes 통합 기능을 갖추고 있습니다. Flipt의 평가 모델 (evaluation model)은 깔끔하고 문서화가 잘 되어 있습니다. Tombstone의 추가 서비스로 인한 운영 오버헤드 없이, 특히 GitOps 네이티브 플래그 시스템이 필요한 팀이라면 Tombstone 대신 Flipt를 선택할 것입니다.

GrowthBook은 실험(experimentation)을 위해 진정으로 탁월합니다. 만약 주요 사용 사례가 A/B 테스트이고 운영 환경의 안전 기능(production safety features)이 필요하지 않다면, GrowthBook의 통계 엔진(Bayesian + frequentist)은 오픈 소스(OSS) 분야에서 가장 정교합니다. 기능 플래그(feature flag) 전달 기능은 작동하지만 부차적인 요소입니다.

Tombstone은 여러 서비스에 걸쳐 500개 이상의 플래그를 실행하고 있으며, 실험 속도만큼이나 운영 환경의 신뢰성이 중요할 때 적합한 선택입니다. 서킷 브레이커 자동 롤백(circuit-breaker auto-rollback), 영향 범위 점수화(blast-radius scoring), 인과적 장애 상관관계(causal incident correlation)는 오픈 소스(OSS)의 다른 어디에서도 찾아볼 수 없는 기능들입니다. 트레이드오프(tradeoff)는 복잡성입니다. 8개의 서비스는 실제 운영 측면에서 상당한 부담이 됩니다.

다른 곳에는 없는 기능들

**서킷 브레이커 자동 롤백(Circuit-breaker auto-rollback)**은 제가 가장 중요하게 생각하는 기능입니다. 구현 방식은 다음과 같습니다: SDK가 플래그 키(flag key)와 결과(outcome)를 포함한 평가 이벤트(evaluation events)를 평가 서비스(evaluator service)에 보고합니다. 플래그별 에러율은 Redis의 이동 창(rolling windows)에서 추적됩니다 (예: 10초 동안 100개의 요청 중 5% 에러 발생 시 작동). 브레이커가 작동(trip)하면 OnTrip 콜백이 실행되어 플래그를 비활성화하고 감사 로그(audit log)에 기록합니다. 복구: 5분간의 HALF_OPEN 창(window)이 유지됩니다. 플래그 변경, 에러 급증, 플래그 비활성화로 이어지는 전체 사이클은 사람의 개입 없이 30초 이내에 발생할 수 있습니다.

이 기능을 작업할 때 Knight Capital 사건을 자주 떠올립니다. 45분 만에 4억 4천만 달러의 손실이 발생했는데, 이는 전적으로 비활성화되었어야 할 기능 플래그 하나 때문이었습니다. 10초 창(window)을 가진 서킷 브레이커는 30초 만에 작동합니다. 이것이 바로 그 차이입니다.

**영향 범위 점수화(Blast radius scoring)**는 무언가를 변경하기 전에 질문에 답을 제공합니다. 네 가지 단계가 있습니다: BLOCKED (>50% 트래픽 + >5% 과거 에러 차이), HIGH (>25% 트래픽 또는 5개 이상의 종속 플래그), MEDIUM, LOW. BLOCKED 단계의 변경은 최소 10자 이상의 사유를 입력해야 합니다. 이는 관료주의적이지 않을 만큼 짧으면서도, 의도적인 작업임을 나타낼 만큼 충분히 긴 길이입니다. 저는 시행착오를 통해 이 임계값을 찾아냈습니다.

**"무엇이 변했는가?(What Changed?)" 장애 상관관계 분석 (incident correlation)**은 모든 운영 환경 장애(production incident) 발생 시 초기 10분을 아껴주는 핵심 기능입니다. 타임스탬프가 주어지면, 인과 관계 의존성 그래프 (causal dependency graph)를 쿼리하여 해당 시간 직전 윈도우 내에 변경된 플래그들을 영향 범위 (blast radius) 순으로 반환합니다. 20분 동안 로그 고고학 (log archaeology)을 수행하는 대신 단 한 번의 API 호출로 해결할 수 있습니다.

빠른 시작 비교 (Quick Start Comparison)

Tombstone:

git clone https://github.com/sairam0424/Tombstone
cp infra/.env.example infra/.env
make dev  # 8개 서비스 전체 + 대시보드가 localhost:3000에서 실행됨

Unleash:

git clone https://github.com/Unleash/unleash
docker compose up -d  # 대시보드가 localhost:4242에서 실행됨

Flagsmith:

git clone https://github.com/Flagsmith/flagsmith
docker compose up  # 대시보드가 localhost:8000에서 실행됨

Flipt:

docker run -p 8080:8080 flipt/flipt:latest
# 대시보드가 localhost:8080에서 실행됨

GrowthBook:

git clone https://github.com/growthbook/growthbook
docker compose up -d  # 대시보드가 localhost:3000에서 실행됨

Tombstone에 대한 솔직한 주의사항 (Honest Caveats About Tombstone)

스택이 복잡합니다. 8개의 서비스, PostgreSQL, Redis, 그리고 Kafka는 팀 규모가 3명이라면 직접 관리하고 싶지 않은 구성일 것입니다. 소규모 팀이라면 Unleash나 Flipt로 시작하세요.

ML 레이어에는 데이터가 필요합니다. Thompson Sampling (톰슨 샘플링)은 롤아웃 (rollout) 권장 사항을 제시하기 전, 플래그당 최소 50개 이상의 관측치 (observations)를 필요로 합니다. 새로운 플래그의 경우, 인텔리전스 서비스 (intelligence service)는 "데이터 부족 (insufficient data)"이라고 알리며 개입하지 않습니다. 이는 올바른 동작이지만, 처음 며칠 동안은 ML 권장 사항을 볼 수 없음을 의미합니다.

인텔리전스 서비스는 자연어 처리 (NLP) 플래그 검색을 위해 400MB 크기의 임베딩 모델 (embedding model, BAAI/bge-m3)을 번들로 포함합니다. 첫 빌드에는 3~5분이 소요됩니다. 그 이후의 모든 빌드는 몇 초 내에 완료됩니다.

클라우드 호스팅은 v1.1에 계획되어 있습니다. 현재 Tombstone은 셀프 호스팅 (self-hosted)만 지원합니다.

결론 (Conclusion)

2026년에 기능 플래그 플랫폼을 평가하고 있다면, 결정은 당신이 무엇을 최적화하려 하는지에 달려 있습니다:

대규모 환경에서의 운영 안정성 (Production reliability at scale) → Tombstone
검증되고 문서화가 잘 된 오픈 소스 (Proven, well-documented OSS) → Unleash
개발자 경험 + 원격 구성 (Developer experience + remote config) → Flagsmith
GitOps 네이티브 (GitOps-native) → Flipt
실험 중심 (Experimentation-first) → GrowthBook

솔직한 요약: Tombstone은 오픈 소스 어디에서도 찾아볼 수 없는 기능들을 추가하지만, 운영 측면에서 더 많은 요구사항을 필요로 합니다. 관건은 서킷 브레이커 (Circuit-breaker) 및 폭발 반경 (Blast-radius) 제어 기능이 팀의 추가적인 복잡성을 감수할 만큼 가치가 있느냐 하는 것입니다. 여러 서비스에 걸쳐 수천 개의 플래그를 관리하는 팀이라면 그렇다고 말씀드리겠습니다. 그 외의 경우에는 Unleash나 Flipt가 충분히 제 역할을 해줄 것입니다.

Tombstone은 MIT 라이선스이며 셀프 호스팅 (Self-hosted) 방식입니다. GitHub: https://github.com/sairam0424/Tombstone