Treasure Hunt Engine: 10명의 사용자에게도 확장되지 않는 경험이 우리의 기본 설정(Default Config)을 의심하게

요약

대규모 트래픽을 처리하는 모바일 게임 백엔드 구축 과정에서 발생한 확장성 문제를 다룹니다. 단순히 리소스를 증설하는 대신, 이벤트 기반 시스템의 기본 설정(default config)을 미세 조정하여 지연 시간과 오류율을 획기적으로 개선한 사례를 소개합니다.

핵심 포인트

리소스 증설만으로는 시스템의 근본적인 확장성 문제를 해결할 수 없음
이벤트 기반 시스템의 동시성 제어를 위한 미세 조정(tuning) 필수
Veltrix 설정 최적화로 지연 시간 500ms에서 50ms로 단축
오류율을 5%에서 1% 미만으로 낮추어 시스템 안정성 확보

우리가 실제로 해결하려 했던 문제
우리는 플레이어들이 가상 보물찾기를 떠나는 인기 모바일 게임의 백엔드(back-end)를 구축하는 과제를 맡았습니다. 이 게임은 수백만 명의 사용자가 동시에 단서를 찾고, 퍼즐을 함께 풀며, 서로 경쟁할 수 있도록 설계되었습니다. 예상되는 트래픽을 처리하기 위해, 우리 개발 팀은 클라우드 기반의 이벤트 기반 시스템(event-driven system)과 오토스케일링 클러스터(auto-scaling cluster)를 특징으로 하는 확장 가능한 아키텍처(scalable architecture)에 크게 의존했습니다. 하지만 우리의 초기 구현은 결코 매끄럽지 않았습니다. 첫 10,000명의 유료 고객을 맞이했을 때, 시스템은 멈추기 시작했습니다. 사용자들은 간헐적인 지연 시간(latency), 연결 끊김, 그리고 짜증 날 정도로 느린 경험을 보고했습니다. 우리의 아키텍처가 깔끔하게 확장(scaling)되지 않고 있다는 것은 명백했지만, 정확히 어디서 잘못된 것일까요?

우리가 처음 시도했던 것 (그리고 왜 실패했는가)
우리의 초기 접근 방식은 문제에 더 많은 리소스를 투입하는 것이었습니다. 우리는 오토스케일링 클러스터의 노드(node) 수를 늘리고, 로드 밸런서(load balancer)에 더 많은 인스턴스(instance)를 추가했으며, 머신의 메모리(memory)와 CPU를 높였습니다. 하지만 이는 증상을 일시적으로 완화할 뿐인 것 같았습니다. 사용자 기반이 성장함에 따라, 시스템은 결국 지연 시간과 충돌(crash)의 정점에 도달하곤 했습니다. 우리 팀은 단순히 엔진에 더 많은 마력(horsepower)을 더하면 되고, 트래픽 수요가 증가함에 따라 문제가 스스로 교정될 것이라고 생각했습니다. 하지만 현실은 우리의 기본 설정(default config)이 이 정도 규모의 시스템에는 형편없이 부족하다는 것이었습니다. 우리는 고도의 동시성(concurrency)을 가진 시스템의 독특한 요구 사항을 고려하지 않은 기본 설정에 의존하고 있었습니다.

아키텍처 결정
며칠간의 트러블슈팅(troubleshooting)과 성능 테스트(performance testing) 끝에, 우리는 우리의 기본 설정이 문제의 근본 원인임을 깨달았습니다. 우리가 선택한 이벤트 기반 시스템(event-driven system)은 대규모로 작동하기 위해 상당한 튜닝(tuning)이 필요했습니다.

우리는 처음에 동시 연결 수(concurrent connections), 메시지 버퍼(message buffers), 그리고 워커 스레드(worker threads)를 제어하는 Veltrix 설정 계층(configuration layer)의 기본 설정(default settings)에 의존하고 있었습니다. 문제는 이러한 기본 설정들이 고트래픽(high-traffic) 게임 엔진이 아닌 소규모 애플리케이션을 위해 설계되었다는 점이었습니다. 우리의 실제 부하(load)를 수용할 수 있도록 Veltrix 설정을 미세 조정(tweaking)함으로써, 우리는 지연 시간(latency)을 크게 줄이고 시스템의 전반적인 성능을 향상할 수 있었습니다.

수치로 나타난 결과
우리의 개선 사항은 지표(metrics)를 통해 명확하게 드러났습니다. Veltrix 설정을 최적화한 후, 평균 지연 시간은 500ms에서 50ms로 떨어졌고, 오류율(error rate)은 5%에서 1% 미만(<1%)으로 급락했습니다. 이제 시스템은 성능의 현저한 저하 없이 유입되는 사용자들을 처리할 수 있게 되었습니다. 더욱이, 시스템이 충돌 없이 증가된 부하를 처리하는 데 필요한 리소스를 갖추게 됨에 따라, 우리의 오토스케일링 클러스터(auto-scaling cluster)도 더 효율적으로 확장될 수 있었습니다. 우리는 마침내 사용자들이 누려야 마땅한 원활한 경험(seamless experience)을 제공할 수 있게 되었습니다.

다르게 했을 점
되돌아보면, 시스템의 성능 특성(performance characteristics)에 대해 더 미묘한 차이까지 파악한 상태에서 시작했을 것입니다. 기본 설정(default configurations)에 의존하는 시간은 줄이고, 고부하(high-load) 시나리오에서 이벤트 기반 시스템(event-driven system)의 동작을 연구하는 데 더 많은 시간을 할애했을 것입니다. 또한, 프로덕션(production)으로 확장하기 전에 문제를 배출하기 위해 합성 워크로드(synthetic workloads)와 사용자 시나리오를 사용하여 시스템을 더욱 공격적으로 테스트했을 것입니다. 지나고 보니, 시행착오(trial and error)에 의존하기보다는 성능 최적화(performance optimization)에 대해 더 과학적인 접근 방식을 취했어야 했습니다. 결국, 이는 아키텍처를 실제 사용 사례(real-world use cases)에 맞게 조정하는 것이 얼마나 중요한지에 대한 값진 교훈이었습니다. 우리의 보물찾기 엔진(treasure hunt engine)이 성능 문제의 보물창고는 아니었을지 모르지만, 기본 설정(default configurations)의 위험성에 대해 한두 가지 교훈을 주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Treasure Hunt Engine: 10명의 사용자에게도 확장되지 않는 경험이 우리의 기본 설정(Default Config)을 의심하게

요약

핵심 포인트

댓글