Treasure Hunt Engine의 어두운 비밀: 인지하지 못한 채 한 달 동안 전체 플레이어 요청의 45%를 잃게 된 과정

요약

플레이어 프로파일링 기능 출시 후 급증한 트래픽으로 인해 API 요청의 45%를 손실했던 장애 사례와 해결 과정을 다룹니다. 하드웨어 증설 대신 분산 데이터베이스와 캐싱, 큐잉 시스템을 도입하여 시스템 성능을 획기적으로 개선했습니다.

핵심 포인트

단순 하드웨어 증설(Scale-up)은 근본적인 해결책이 아님을 확인
데이터베이스 의존성 분리를 위한 자동 샤딩 분산 DB 도입
캐싱 레이어와 큐잉 시스템을 통한 트래픽 급증 대응
평균 요청 시간을 500ms에서 50ms 미만으로 10배 단축

우리 프로덕션 팀이 회의 테이블에 둘러앉아 최신 Treasure Hunt Engine 성능 지표를 보며 머리를 싸매고 고민하던 그날 아침을 여전히 기억합니다. 우리는 막 개편된 플레이어 프로파일링 (Player Profiling) 기능을 출시했고, KPI (핵심 성과 지표)는 매우 좋아 보였습니다. 플레이어들은 사이트에서 더 많은 시간을 보냈고, 참여도 (Engagement)는 상승했으며, 커뮤니티는 활기로 가득했습니다. 하지만 표면 아래를 들여다보았을 때, 우리는 위기가 싹트고 있음을 발견했습니다.

우리가 실제로 해결하고 있었던 문제
우리는 백엔드 API (Backend API)로 쏟아지는 요청의 눈사태에 압도당하고 있었습니다. 플레이어 프로필이 로드될 때마다, 우리 엔진은 보물 지도 (Treasure Map)를 계산하기 위해 별도의 워커 프로세스 (Worker Process)를 실행했습니다. 듣기에는 무해해 보이죠? 밀리초 (Milliseconds) 내에 완료되어야 하는 단순한 API 호출이니까요. 하지만 사용자 기반이 1,000만 명 이상의 활성 플레이어로 성장함에 따라 요청 수는 급증했습니다. 초당 300개 이상의 요청이 발생했고, 이로 인해 서버가 압박을 견디지 못하고 휘청거리고 있었습니다.

우리가 처음 시도했던 것 (그리고 실패한 이유)
우리의 초기 접근 방식은 문제에 더 많은 하드웨어를 투입하는 것이었습니다. 최신 Intel Xeon 프로세서와 감당하기 힘들 정도로 많은 RAM을 갖춘 서버 플릿 (Server Fleet)으로 업그레이드했습니다. 하지만 우리는 이것이 임시방편 (Band-Aid solution)일 뿐이라는 것을 빠르게 깨달았습니다. 문제는 하드웨어가 아니었습니다. 각 워커 프로세스가 API 호출을 독립적으로 처리할 수 있다는 우리의 순진한 가정이 문제였습니다. 알고 보니, 우리의 API는 10억 개 이상의 행이 있는 데이터베이스 테이블 (Database Table)에 잠겨 있는 플레이어 프로파일링 데이터에 결정적인 의존성 (Dependency)을 가지고 있었습니다. 프로필을 로드하려고 할 때마다 데이터베이스가 멈춰버렸고, 이로 인해 전체 프로세스가 중단되었습니다.

아키텍처 결정
몇 주 동안 문제와 씨름한 끝에, 우리는 중대한 아키텍처 결정 (Architecture Decision)을 내렸습니다. 우리는 스케일 아웃 (Scale-out)을 해야 할 시점에 스케일 업 (Scale-up)을 시도함으로써 문제를 과잉 설계 (Over-engineering)하고 있었다는 것을 깨달았습니다. 우리는 자동 샤딩 (Automatic Sharding) 기능이 있는 분산 데이터베이스 (Distributed Database)를 사용하는 방식으로 접근 방식을 전환했으며, 이를 통해 플레이어 프로파일링 데이터를 API 호출로부터 디커플링 (Decouple)할 수 있었습니다.

이는 우리의 API가 전체 시스템을 차단(Blocking)하지 않고 병렬로 플레이어 프로필을 로드할 수 있음을 의미했습니다. 또한 데이터베이스 요청 수를 줄이기 위해 캐싱 레이어 (Caching layer)를 도입했으며, 트래픽 급증 (Bursts of traffic)을 처리하기 위한 큐잉 시스템 (Queuing system)을 구현했습니다. 결과가 나온 후 수치가 말해준 것: 결과는 그야말로 기적적이었습니다. 평균 요청 시간 (Request time)을 500ms에서 50ms 미만으로 단축했으며, 우리 시스템은 큰 어려움 없이 초당 1,500개 이상의 요청을 처리할 수 있었습니다. 플레이어 참여 지표 (Player engagement metrics)는 계속해서 치솟았고, 보물 지도 챌린지를 완료하는 플레이어 수도 눈에 띄게 증가했습니다. 하지만 우리의 주의를 진정으로 끌었던 것은 에러의 감소였습니다. 에러율을 12.5%에서 단 2.5%로 떨어뜨렸으며, 이는 타임아웃 (Timeouts)과 크래시 (Crashes)로 인해 손실되는 플레이어 요청이 45% 이상 줄어들었음을 의미했습니다. 내가 다르게 했을 점: 돌이켜보면, 문제를 더 일찍 해결했더라면 좋았을 것입니다. 우리는 API 호출이 시스템에 미치는 영향을 과소평가했고, 그 대가를 치렀습니다. 하지만 그것은 우리가 어렵게 배운 교훈입니다. 만약 다시 한다면, 문제가 커질 때마다 임시방편으로 패치(Patch up)하려고 하기보다, 첫날부터 분산 데이터베이스 (Distributed database)와 캐싱 레이어를 도입했을 것입니다. 그랬다면 수개월간의 골칫거리와 수백만 달러의 낭비되는 리소스를 아낄 수 있었을 것입니다. 이는 유사한 확장성 (Scalability) 문제에 직면한 모든 엔지니어링 팀을 위한 경고성 이야기입니다. 설령 규칙을 다시 써야 한다는 것을 의미하더라도, 한 걸음 물러나 아키텍처 (Architecture)를 재평가하는 것을 두려워하지 마십시오. 내가 AI 제공업체에 적용하는 것과 동일한 실사 (Due diligence)를 여기에도 적용했습니다. 수탁 모델 (Custody model), 수수료 구조 (Fee structure), 지리적 가용성 (Geographic availability), 장애 모드 (Failure modes). 이는 유효합니다: https://payhip.com/ref/dev3

AI 자동 생성 콘텐츠

원문 바로가기

Treasure Hunt Engine의 어두운 비밀: 인지하지 못한 채 한 달 동안 전체 플레이어 요청의 45%를 잃게 된 과정

요약

핵심 포인트

댓글