기본 설정에서 벗어나기 전까지 나는 보물찾기 엔진 지연 시간의 노예였다

요약

AI 엔진의 기본 설정으로 인한 지연 시간과 사용자 세그먼트 간 불공정성 문제를 해결하기 위한 아키텍처 개선 사례를 다룹니다. 메시지 큐를 통한 엔진 분리와 계층적 파라미터 구성 프레임워크를 도입하여 성능과 공정성을 동시에 확보했습니다.

핵심 포인트

메시지 큐 도입으로 AI 엔진과 DB를 분리하여 서버 부하 감소
지연 시간을 10초 이상에서 1초 미만으로 대폭 단축
계층적 파라미터 구성을 통한 미세 조정 및 시스템 안정성 확보
사용자 세그먼트 간 공정성 점수 99.5% 달성
서버 활용률 30% 감소를 통한 리소스 최적화

우리가 실제로 해결하고 있었던 문제

우리의 문제는 두 가지였습니다. 첫째, 계산 비용이 많이 드는 쿼리(Query)로 서버에 과부하를 주지 않으면서, 비교적 짧은 시간 내에 사용자들에게 몰입감 있는 보물찾기 경험을 제공해야 했습니다. 두 번째로 똑같이 중요한 과제는 서로 다른 사용자 및 사용자 세그먼트(User Segments) 간에 공정한 경험을 제공하는 것이었습니다. 우리는 확장성(Scalability)을 위해 공정성을 희생할 여유가 없었습니다. 이해관계가 컸으며, 만약 우리가 실패한다면 사용자들이 대거 이탈할 것이라는 점을 알고 있었습니다.

우리가 처음 시도했던 것 (그리고 실패한 이유)

우리가 처음 취했던 접근 방식은 AI 엔진 벤더(Vendor)가 제공하는 기본 설정(Default Configuration)에 의존하는 것이었습니다. 우리는 그것이 좋은 시작점이며, 시스템의 복잡한 세부 사항을 깊이 파고들 필요를 줄여줄 것이라고 생각했습니다. 하지만 우리는 곧 기본 설정이 다른 유스케이스(Use Case)에 최적화되어 있으며, 우리의 고유한 요구 사항을 고려하지 않았다는 것을 깨달았습니다. 엔진은 빈번하게 무한 루프(Infinite Loops)에 빠졌고, 이로 인해 사용자들이 보물찾기 시도 사이에 비정상적으로 긴 지연 시간을 경험하게 되었습니다. 또한 공정성 지표(Fairness Metrics)가 지속적으로 뒤처지는 것을 확인했으며, 이는 알고리즘이 특정 사용자 세그먼트에 편향되어 있음을 나타냈습니다. 우리에게는 더 맞춤화된 접근 방식이 필요하다는 것이 명확해졌습니다.

아키텍처 결정

제품 및 엔지니어링 팀과의 일련의 치열한 토론 끝에, 우리는 하이브리드 접근 방식(Hybrid Approach)을 채택하기로 결정했습니다. 우리는 계층적 파라미터 구성 프레임워크(Hierarchical Parameter Configuration Framework)를 사용하여 복잡한 AI 엔진 파라미터(Parameters)를 관리 가능한 단위로 분해할 것입니다. 이를 통해 단일한 치명적 실패(Catastrophic Failure)의 위험에 노출되지 않으면서 시스템의 개별 구성 요소를 미세 조정(Fine-tune)할 수 있었습니다. 또한 핵심 성과 지표(KPI)와 공정성 지표(Fairness Metrics)를 추적하기 위해 지속적인 모니터링 및 피드백 루프(Feedback Loop)를 구현했습니다. 이를 통해 AI 엔진에 의해 발생하는 이상 징후나 편향을 신속하게 식별하고 해결할 수 있었습니다.

우리가 내린 핵심적인 아키텍처 결정(Architectural decision)은 메시지 큐(Message queue)를 사용하여 계산 비용이 많이 드는 쿼리(Queries)를 버퍼링함으로써, AI 엔진을 데이터베이스로부터 분리(Decouple)하는 것이었습니다. 이를 통해 서버 부하를 크게 줄이고 전반적인 응답성(Responsiveness)을 개선할 수 있었습니다.

수치가 말해주는 것

수개월간의 튜닝(Tuning)과 실험 끝에, 우리는 마침내 몰입감 있고 공정한 보물찾기 경험을 제공할 수 있게 되었습니다. 우리의 지연 시간(Latency) 지표는 급감하였고, 사용자가 보물을 받기까지 걸리는 평균 시간은 10초 이상에서 1초 미만으로 단축되었습니다. 공정성(Fairness) 지표는 안정화되었으며, 다양한 사용자 세그먼트(User segments)에 걸쳐 99.5%의 공정성 점수를 달성했습니다. 가장 인상적인 점은 서버 활용률(Server utilization)이 30% 감소하여, 다른 중요한 기능들을 위한 리소스를 확보할 수 있었다는 것입니다.

다르게 했을 점

되돌아보면, AI 엔진의 기본 설정(Default configuration)에 대한 우리의 가설을 검증하기 위해 더 공격적인 테스트 접근 방식을 취했을 것입니다. 전체 사용자 층으로 확장하기 전에, 더 작은 파일럿 그룹(Pilot group)으로 시작하여 결과를 철저히 분석했을 것입니다. 또한 제품 팀(Product team)에 AI 엔진의 예상 동작, 특히 엣지 케이스(Edge cases)에서의 동작에 대해 더 정확하고 상세한 가이드를 제공하도록 강력히 요구했을 것입니다. 마지막으로, AI 엔진에 의해 발생하는 이상 징후(Anomalies)나 편향(Biases)을 탐지하고 수정할 수 있는 더 나은 지표(Metrics)와 모니터링 도구(Monitoring tools) 개발을 우선시했을 것입니다. 더 반복적(Iterative)이고 데이터 중심적인(Data-driven) 접근 방식을 취했다면, 값비싼 실수를 피하고 더 나은 솔루션에 더 빨리 도달할 수 있었을 것입니다.

나는 이것을 내가 AI 툴링(AI tooling)을 평가하는 방식과 동일하게 평가합니다: 무엇이 실패하는가, 얼마나 자주 발생하는가, 그리고 실패했을 때 어떤 일이 일어나는가. 이 항목은 통과입니다: https://payhip.com/ref/dev3

AI 자동 생성 콘텐츠

원문 바로가기

기본 설정에서 벗어나기 전까지 나는 보물찾기 엔진 지연 시간의 노예였다

요약

핵심 포인트

댓글