Dev.to헤드라인2026. 06. 22. 00:31

App Store의 침묵하는 거인들: AI 어시스턴트들은 리뷰어들에게 거의 답장하지 않는다

요약

미국 App Store의 생산성 앱 12개를 대상으로 최근 사용자 감성과 개발자 응답률을 분석한 결과, ChatGPT를 포함한 AI 어시스턴트 앱들이 사용자 리뷰에 거의 답장하지 않는 '유령선(Ghost Ships)' 유형으로 나타났습니다.

핵심 포인트

AI 어시스턴트 앱들은 높은 평점에도 불구하고 개발자 응답률이 0%에 가까움
Dropbox, Gmail 등 전통적인 도구들은 AI 앱 대비 상대적으로 높은 응답률 유지
최근 리뷰는 불만족한 사용자의 편향이 포함될 수 있음을 유의해야 함
앱의 상태를 감성 변화와 응답률을 기준으로 4가지 원형으로 분류

App Store 평점은 판결처럼 보입니다. 하지만 그것은 수년에 걸쳐 구축되어 움직임이 느린 기념비에 더 가깝습니다. 그것은 이번 달 사용자들의 기분이 어떤지에 대해서는 거의 알려주지 않습니다.

저는 미국 App Store에서 가장 많은 평점을 받은 생산성(Productivity) 앱 12개를 선정하여, 총 3,200만 개의 평점을 대상으로 분석했습니다. 그리고 헤드라인 별점 뒤에 숨겨진 두 가지 수치로 나누어 살펴보았습니다: 최근의 감성(sentiment)이 전체 평균보다 얼마나 떨어졌는지, 그리고 사용자가 불만을 제기할 때 개발자가 답장을 하는지 여부입니다.

측정 방법

모집단 진실 (Population truth). 전체 평점(Lifetime ratings)과 별점 히스토그램(star histogram)은 앱이 지금까지 받은 모든 평점을 포함하는 Apple의 전체 평점 데이터에서 가져왔습니다.
최근 감성 (Recent sentiment). 날짜를 기준으로 한 가장 최근 리뷰의 고정된 윈도우(window)를 사용합니다. 따라서 수천 개의 리뷰가 쌓인 앱이 수백 개의 리뷰만 있는 앱과 다년 평균을 두고 비교되지 않도록 했습니다. 모든 앱에 동일한 윈도우를 적용했습니다.
개발자 응답 (Developer response). 해당 최근 윈도우 동안의 답장 비율(Reply share)과 중앙값 지연 시간(median latency)을 측정했습니다.
**불만 사항 (Complaints)**은 규칙 기반 분류 체계(rule-based taxonomy)로 분류되었습니다. 이는 학습된 분류기(classifier)가 아닌 휴리스틱(heuristic)이며, 저 또한 이를 휴리스틱으로 취급합니다.

분석 결과

이제 AI 어시스턴트들이 이 차트를 점령하고 있으며, 이들은 거의 누구에게도 답장하지 않습니다.

앱	전체 평점	최근 평점	답장 비율
ChatGPT	4.8	4.18	0%
...

여전히 현장에서 발로 뛰고 있는 것은 오래된 도구들입니다: Dropbox는 최근 리뷰어의 58%에 답장하고, Gmail은 26%, Drive는 23%를 답장합니다. 최근 가장 급격한 하락을 보인 앱은 Microsoft Authenticator (4.7에서 2.18로), Gmail (4.7에서 2.40으로), 그리고 Dropbox (4.8에서 2.75로)입니다.

응답에 대한 반발(backlash)을 두 개의 축으로 도식화했을 때, 모든 앱은 네 가지 원형(archetypes) 중 하나에 해당합니다: 소방관(Firefighters), 유령선(Ghost Ships), 안주하는 거인(Complacent Giants), 그리고 회복력 있는 리더(Resilient Leaders). 12개 중 8개가 유령선(Ghost Ships)에 해당하며, 거의 침묵 속에서 최근 타격을 입고 있습니다.

솔직한 한계

최근의 리뷰어들은 불만족한 사용자들 위주로 스스로를 선택(self-select)하는 경향이 있습니다. 버그를 발견한 사람은 만족한 사람보다 리뷰를 남길 가능성이 훨씬 높기 때문에, 최근의 낮은 평균 점수는 실제적인 하락과 이러한 편향(bias)이 뒤섞여 있으며, 이 데이터만으로는 두 가지를 명확히 분리할 수 없습니다. 저는 특정 앱의 업데이트와 하락을 직접적으로 연결 짓지는 않는데, 이는 버전 데이터가 해당 주장을 뒷받침하기에는 너무 희소하기 때문입니다. 전체 생애 수치(lifetime figure)는 모집단의 진실이며, 최근 수치는 편향된 표본(biased sample)입니다. 저는 결코 하나를 다른 하나로 제시하지 않습니다.

전체 인터랙티브 마찰 매트릭스(Friction Matrix), 앱별 불만 유형(complaint archetypes), 그리고 상세한 방법론은 여기에서 확인할 수 있습니다: https://nativerse-ventures.com/productivity-friction-matrix

Nativerse 연구소의 독립적인 연구입니다. 수치는 공개된 App Store 데이터를 기반으로 하며, 조작된 것이 아닌 인용된 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

App Store의 침묵하는 거인들: AI 어시스턴트들은 리뷰어들에게 거의 답장하지 않는다

요약

핵심 포인트

측정 방법

분석 결과

솔직한 한계

댓글