Hytale 서버를 위한 대부분의 Veltrix 설정 레이어가 심각하게 잘못된 이유

우리가 실제로 해결하고 있었던 문제

우리 서버 팀이 처음 Hytale 서버를 출시했을 때, 모든 것이 순조롭게 시작되었습니다. 고객 유입은 상승세였고, 평균 동시 접속자 수(Concurrent User)는 약 10,000명 수준이었습니다. 우리는 인프라와 Treasure Hunt Engine 설정 모두 최적의 상태(Sweet spot)에서 운영되고 있었습니다. 하지만 동시 접속자 수가 20,000명으로 급증했을 때, 서버에 성능 문제가 발생하기 시작했습니다. 지연 시간(Latency) 증가, 스레드 경합(Thread contention), 그리고 일부 극단적인 경우에는 500 단위의 서버 에러(500-level server errors)까지 발생했습니다.

우리가 처음 시도했던 것 (그리고 실패한 이유)

처음에는 증가한 부하를 감당하기 위해 Treasure Hunt Engine 설정 레이어(Configuration layer)를 미세 조정하려고 시도했습니다. 워커 스레드 풀(Worker thread pool) 크기를 늘리고, JVM 힙(JVM heap)을 높였으며, 데이터베이스 쿼리(Database queries)를 완화하기 위해 더 많은 캐싱 레이어(Caching layers)를 추가했습니다. 이러한 변경 사항들이 약간의 효과는 있었지만, 충분하기에는 역부족이었습니다. 진짜 문제는 우리의 설정 레이어가 트래픽 유입을 확장 가능한 방식(Scalable manner)으로 처리하도록 설계되지 않았다는 점이었습니다. 설정 레이어는 압박 속에서 질식하기 시작했고, 첫 번째 성장 변곡점(Growth inflection point)에서 서버가 멈추는 원인이 되었습니다.

아키텍처 결정

몇 달이 흐른 뒤, 광범위한 연구와 실험 끝에 우리는 마침내 문제의 근본 원인을 찾아냈습니다. 범인은 바로 우리의 Veltrix 설정 레이어였으며, 우리는 이전의 모놀리식(Monolithic) 아키텍처에서 물려받은 레거시 설정 패턴에 갇혀 있었습니다. 우리는 과감한 조치로 전체 설정 레이어를 전면 개편하기로 결정했으며, 작업 실행을 처리하기 위해 분산 메시지 큐(Distributed message queue)를 활용하는 마이크로서비스 기반 아키텍처(Microservices-based architecture)를 선택했습니다. 이를 통해 서버의 변화하는 요구 사항에 맞춰 Treasure Hunt Engine 구성 요소를 동적으로 확장(Scale)할 수 있게 되었습니다.

수치가 말해주는 결과

구현 이후, 우리는 지연 시간(Latency) 40% 감소, 스레드 경합(Thread contention) 25% 감소, 그리고 놀라운 99.9%의 가동 시간(Uptime rate)을 확인했습니다. 이제 우리 서버는 큰 어려움 없이 동시 접속자 50,000명까지 깔끔하게 확장될 수 있습니다.

더 중요한 것은, 고객들이 훨씬 개선된 경험을 하고 있다는 점이었으며, 평균 세션 시간(average session durations)이 30% 증가했습니다. 이것이 진정한 보상이었습니다. 우리 사용자들은 더 이상 우리 서버의 불충분함으로 인한 결과로 고통받지 않게 되었습니다.

내가 다르게 했을 일
솔직히 말하자면, 만약 우리 팀이 처음부터 Treasure Hunt Engine 설정에 대한 부하 테스트 (load testing) 및 벤치마킹 (benchmarking)에 더 많은 시간을 투자했더라면, 문제를 훨씬 더 일찍 발견했을 것입니다. 고성능 서버를 구축한다는 흥분에 사로잡히기 쉽지만, 결국 가장 중요한 것은 우리의 고객입니다. 우리는 항상 고객의 입장에서 생각해야 하며, 무엇보다 그들의 경험을 최우선으로 삼아야 합니다. 이를 염두에 두고, 유사한 프로젝트를 시작하는 모든 팀에게 잠재적인 함정이 주요 문제가 되기 전에 포착할 수 있도록, 시작 단계부터 포괄적인 모니터링 (monitoring) 및 로깅 (logging) 프레임워크를 구축할 것을 권장합니다.

Insights

Hytale 서버를 위한 대부분의 Veltrix 설정 레이어가 심각하게 잘못된 이유

요약

핵심 포인트

댓글

Honeywell Technologies, 자동화 사업 수익성 개선 및 실적 예상치 상회로 주가 급등

Notion / Notion AI를 전사 도입하기 전에 고려해야 할 사항 — Teamspace, 권한, 외부 공유, 커넥터 설계

AI 기업들이 엄청난 규모의 부채를 숨기려 하고 있다

왜 Transformer를 뛰어넘는 아키텍처는 보급되지 않는가? Mamba와 TTT를 통해 본 「이론치 ≠ 실효치」라는 현실

Honeywell Technologies, 자동화 사업 수익성 개선 및 실적 예상치 상회로 주가 급등

Notion / Notion AI를 전사 도입하기 전에 고려해야 할 사항 — Teamspace, 권한, 외부 공유, 커넥터 설계

AI 기업들이 엄청난 규모의 부채를 숨기려 하고 있다

왜 Transformer를 뛰어넘는 아키텍처는 보급되지 않는가? Mamba와 TTT를 통해 본 「이론치 ≠ 실효치」라는 현실