데이터 분석가를 위한 35가지 ChatGPT 프롬프트: 통찰력 추출 가속화, 결과 전달 및 기술 향상

데이터 분석가들은 지저분한 데이터셋을 정리하고, 복잡한 쿼리 (Query)를 작성하며, 숫자를 의사결정을 이끄는 이야기로 변환하는 데 수많은 시간을 소비합니다. ChatGPT는 지치지 않는 협업자 역할을 할 수 있습니다. 데이터를 더 빠르게 탐색하고, 몇 초 만에 SQL을 디버깅하며, 명확하고 경영진에게 보고하기 적합한 보고서를 작성하도록 도와줍니다. 도구 세트를 구축 중인 주니어 분석가든, 반복적인 업무를 자동화하려는 시니어 분석가든, 이 35가지 프롬프트는 여러분의 업무 방식을 바꿔 놓을 것입니다.

데이터 탐색 및 EDA (Exploratory Data Analysis)

새로운 데이터셋을 한눈에 파악하기
다음 컬럼들로 구성된 데이터셋이 있습니다: [컬럼 목록 및 데이터 타입]. 다음을 포함한 구조화된 EDA 계획을 세워주세요: 질문해야 할 핵심 질문, 확인해야 할 잠재적인 데이터 품질 문제, 검토해야 할 분포, 그리고 탐색할 가치가 있는 변수 간의 관계.
결측치 식별 및 처리
[컬럼 이름]에 18%의 결측치가 있고 [컬럼 이름]에 4%의 결측치가 있는 데이터셋을 분석 중입니다. 각 결측치를 처리하기 위한 가장 적절한 전략을 제안하고, 삭제 (Deletion), 평균/중앙값 대체 (Mean/Median Imputation), 모델 기반 대체 (Model-based Imputation) 사이의 트레이드오프 (Trade-off)를 설명하며, 제안한 내용을 구현할 Python 코드를 제공해 주세요.
지능적인 이상치 탐지
내 데이터셋에는 [측정 대상]을 나타내는 숫자형 컬럼 [컬럼 이름]이 있습니다. 세 가지 다른 이상치 탐지 방법(IQR, Z-score, Isolation Forest)을 단계별로 설명하고, 각각 언제 가장 적합한지 설명하며, 세 가지 방법을 모두 적용하여 결과를 표시할 Python 코드를 제공해 주세요.
이해관계자 요약을 위한 데이터 프로파일링
기술적 지식이 없는 이해관계자를 위한 데이터 프로필 요약을 작성해야 합니다. 다음 컬럼 이름과 샘플 값을 참고하세요: [샘플 붙여넣기]. 데이터셋에 무엇이 포함되어 있는지, 시간 범위, 핵심 지표, 그리고 분석 전에 제가 표시해야 할 명백한 데이터 품질 우려 사항을 쉬운 영어(Plain-English)로 요약해 주세요.
상관관계 및 관계 탐색
내 데이터셋의 변수 간 관계를 이해하고 싶습니다. 컬럼은 다음과 같습니다: [컬럼 목록].

상관관계 분석을 위해 어떤 변수 쌍을 가장 중점적으로 검토해야 하는지 제안하고, 각 쌍에 적합한 상관관계 분석 방법(Pearson, Spearman 또는 Cramér's V)을 추천해 주세요. 또한 pandas와 seaborn을 사용하여 주요 관계를 시각화할 수 있는 Python 코드를 작성해 주세요.

SQL 및 쿼리 작성

복잡한 집계 쿼리 작성하기
[database type: PostgreSQL/MySQL/BigQuery/Snowflake]를 사용하여, [condition]으로 필터링하고 [time period] 동안 각 [dimension]별 [metric]을 계산하여 높은 순서부터 낮은 순서로 순위를 매기는 SQL 쿼리를 작성해 주세요. 테이블 이름은 [table]이며, 관련 컬럼은 [columns]입니다. 각 섹션을 설명하는 주석을 추가해 주세요.
오류가 발생한 SQL 쿼리 디버깅하기
이 SQL 쿼리가 잘못된 결과를 반환하거나 / 에러를 발생시킵니다. 쿼리는 다음과 같습니다: [paste query]. 에러 메시지 또는 예상치 못한 출력은 다음과 같습니다: [describe issue]. 테이블 스키마(Schema)는 다음과 같습니다: [schema]. 문제를 진단하고, 왜 발생하는지 설명한 뒤, 수정된 버전을 제공해 주세요.
느리게 실행되는 쿼리 최적화하기
[X]백만 개의 행이 있는 테이블에서 이 쿼리가 너무 느리게 실행됩니다: [paste query]. 인덱싱(Indexing) 전략, 쿼리 구조 재설계, 전체 테이블 스캔(Full table scan) 방지, 그리고 실행 속도를 높일 수 있는 [database type] 전용 기능을 포함하여 구체적인 최적화 방안을 제안해 주세요. 최적화된 버전으로 다시 작성해 주세요.
코호트 분석(Cohort Analysis) 쿼리 작성하기
사용자 유지율(Retention)에 대한 코호트 분석을 수행하는 SQL 쿼리를 작성해 주세요. 저에게는 user_id, event_date, event_type 컬럼이 있는 [table name]이라는 테이블이 있습니다. 사용자의 첫 이벤트가 발생한 달을 기준으로 코호트를 정의한 다음, 획득 후 1개월부터 6개월까지의 유지율을 계산해 주세요. [PostgreSQL/BigQuery/Snowflake] 문법을 사용하세요.
비즈니스 질문을 SQL로 변환하기
다음 비즈니스 질문을 SQL 쿼리로 변환해 주세요: "[business question, 예: 작년 1분기 대비 4분기에 지역별로 가장 높은 매출 성장을 보인 제품 카테고리는 무엇인가요?]". 제 데이터베이스에는 다음과 같은 테이블과 컬럼이 있습니다: [describe schema]. 쿼리를 작성하고 논리 과정을 단계별로 설명해 주세요.

데이터 시각화 및 대시보드 디자인

다음 내용을 시각화하는 데 필요한 적절한 차트 유형을 선택해 주세요: [보여주고 싶은 내용 설명, 예: 4개의 제품 라인에 걸쳐 18개월 동안의 월간 활성 사용자(MAU) 변화]. 가장 효과적인 차트 유형을 추천하고, 왜 다른 대안보다 더 나은지 설명하며, 출판물 수준의 품질을 구현할 수 있도록 matplotlib 또는 plotly를 사용한 Python 코드를 제공해 주세요.

KPI 대시보드 레이아웃 설계: 저는 [대상: 예: 마케팅 팀 / 경영진]을 위해 [주제: 예: 캠페인 성과]에 초점을 맞춘 대시보드를 구축하고 있습니다. 다음을 포함한 대시보드 레이아웃을 제안해 주세요: 어떤 KPI를 눈에 띄게 배치할지, 어떤 보조 차트를 포함할지, 가독성을 위해 섹션을 어떻게 구성할지, 그리고 [Tableau/Power BI/Looker]에서 가치를 더할 수 있는 상호작용(interactivity) 기능은 무엇인지.
세련된 시각화를 위한 Python 코드 작성: plotly를 사용하여 [보여주는 내용]을 나타내는 인터랙티브한 [차트 유형]을 생성하는 Python 코드를 작성해 주세요. 데이터에는 다음과 같은 컬럼이 있습니다: [컬럼]. 요구 사항: 전문적인 색상 팔레트(color palette)를 사용하고, 적절한 축 레이블과 제목을 포함하며, [상세 정보]를 보여주는 툴팁(tooltip)을 추가하고, 이해관계자 보고서에 삽입하기 적합하도록 만드세요.
시각화 비판 및 개선: 제가 만든 차트에 대해 설명할 테니 피드백을 주세요. 차트 유형: [유형]. 보여주는 내용: [설명]. 의심되는 현재 문제점: [본인의 우려 사항]. 데이터-잉크 비율(data-ink ratio), 색상 선택, 레이블링, 축 스케일링(axis scaling), 그리고 차트 유형이 메시지와 일치하는지를 포함하여 구조화된 비판을 제공해 주세요. 그 다음, 재설계된 버전을 제안해 주세요.
서브플롯(subplots)을 활용한 Matplotlib 대시보드 구축: matplotlib를 사용하여 2x2 그리드로 배열된 4개의 서브플롯을 가진 단일 피규어(single-figure) 대시보드를 생성하는 Python 코드를 작성해 주세요. 차트에는 다음 내용이 포함되어야 합니다: [차트 1 설명], [차트 2 설명], [차트 3 설명], [차트 4 설명]. 일관된 색상 체계를 사용하고, 메인 제목을 추가하며, 레이아웃에서 레이블이 겹치지 않도록 하세요. 다음 샘플 데이터 구조를 사용하세요: [컬럼 설명].

통계 분석 및 해석

적절한 통계 검정 방법을 선택하고 실행하세요. 나는 [테스트하려는 내용, 예: 두 랜딩 페이지 변형 간의 전환율이 유의미하게 다른지]를 결정하고 싶습니다. 나의 샘플 크기는 [n1]과 [n2]이며, 데이터는 [분포/유형 설명]와 같습니다. 올바른 통계 검정 (statistical test)을 추천하고, 내가 확인해야 할 가정 (assumptions)을 설명하며, 이를 실행하고 결과를 해석하기 위한 Python 코드를 제공하세요.

A/B 테스트 결과 해석하기. 나는 다음과 같은 결과로 A/B 테스트를 수행했습니다: 대조군 (Control group): [n]명 사용자, [x]% 전환율. 처치군 (Treatment group): [n]명 사용자, [x]% 전환율. 테스트 기간은 [duration]입니다. 이 결과들을 해석해 주세요: 차이가 통계적으로 유의미한가요 (statistically significant)? 실질적인 유의성 (practical significance)은 무엇인가요? 여기서 적절한 신뢰 수준 (confidence level)은 무엇인가요? 변경 사항을 배포 (ship)해야 할까요? 당신의 논거를 설명하세요.
통계 개념을 쉬운 언어로 설명하기. [통계 개념: 예: p-value / 신뢰 구간 (confidence interval) / 통계적 검정력 (statistical power) / 평균으로의 회귀 (regression to the mean)]를 비즈니스 청중에게 적합한 쉬운 언어로 설명해 주세요. [산업/도메인]과 관련된 구체적인 예시를 사용하세요. 그런 다음, 이 개념이 우리 분석에 왜 중요한지 설명하기 위해 보고서에 바로 붙여넣을 수 있는 한 단락 분량의 요약을 제공해 주세요.
교란 변수 (confounding variables) 식별 및 해결하기. 나는 내 데이터셋에서 [변수 A]와 [변수 B] 사이의 관계를 분석하고 있습니다. 맥락은 [비즈니스 상황 설명]입니다. 내가 통제해야 할 잠재적인 교란 변수들을 식별하고, 각 변수가 어떻게 내 결과에 편향 (bias)을 줄 수 있는지 설명하며, 이를 해결하기 위한 분석적 접근 방식 (층화 (stratification), 회귀 통제 (regression controls), 매칭 (matching))을 제안해 주세요.
회귀 모델 (regression model) 검증하기. 나는 다음 피처 (features)들을 사용하여 [타겟 변수 (target variable)]를 예측하는 선형 회귀 (linear regression) 모델을 구축했습니다: [피처 목록]. 내 모델의 R-제곱 (R-squared) 값은 [value], RMSE는 [value]이며, 잔차 도표 (residual plot)는 [설명]와 같습니다. 이 모델이 신뢰할 수 있는지 평가하고, 잠재적인 문제점 (과적합 (overfitting), 이분산성 (heteroscedasticity), 다중공선성 (multicollinearity))을 식별하며, 모델을 개선하기 위한 구체적인 다음 단계를 제안해 주세요.

비즈니스 보고 및 이해관계자 커뮤니케이션 (Business Reporting and Stakeholder Communication)

다음 분석 결과 데이터를 바탕으로 경영진 요약 (executive summary)을 작성해 주세요: [주요 수치 및 결과 붙여넣기]. [C-suite / 마케팅 부사장 / 이사회]를 대상으로, 가장 중요한 통찰력(insight)을 서두에 배치하고, 2~3개의 핵심 데이터 포인트로 이를 뒷받침하며, 명확한 권장 사항(recommendation)으로 마무리하는 3문단 분량의 경영진 요약을 작성해 주세요. 직접적이고 자신감 있는 언어를 사용하고 전문 용어 (technical jargon)는 피하세요.
데이터 덤프 (data dump)를 내러티브 (narrative)로 전환하기. 여기 우리 [월간/분기별] 분석의 원시 지표 (raw metrics)가 있습니다: [지표 붙여넣기]. 일관된 이야기를 들려주는 데이터 내러티브를 구성하는 것을 도와주세요. 가장 중요한 단일 트렌드를 식별하고, 내러티브 구조 (narrative arc: 맥락, 복잡성, 해결)를 제안하며, 5분 분량의 이해관계자 발표에 사용할 수 있는 구조화된 개요를 작성해 주세요.
분석 결과에 이의를 제기하는 이해관계자에게 대응하기. 한 이해관계자가 내 분석에 대해 다음과 같이 반박했습니다: "[그들의 정확한 반론, 예: '이 데이터는 현장에서 보는 것과 일치하지 않습니다' 또는 '표본 크기가 너무 작아 의미가 없습니다']". 내 분석 방법론 (analysis methodology)은 다음과 같았습니다: [간략한 설명]. 그들의 우려 사항을 직접적으로 다루고, 타당한 지점은 인정하며, 적절한 경우 내 작업의 무결성 (integrity)을 방어하는 전문적이고 자신감 있는 답변 초안 작성을 도와주세요.
데이터 주의 사항 (data caveat) 섹션 작성하기. 나는 [주제]에 관한 보고서를 작성 중이며, 한계점 및 주의 사항 (limitations and caveats) 섹션을 포함해야 합니다. 내 데이터 소스 (data sources)는 [소스]이고, 기간은 [날짜]이며, 알려진 문제로는 [공백, 표본 편향(sampling biases) 또는 측정 문제 설명] 등이 있습니다. 전체 결과에 대한 신뢰를 떨어뜨리지 않으면서도 한계점에 대해 투명하게 밝히는 전문적인 주의 사항 섹션을 작성해 주세요.
지표 정의 문서 (metrics definition document) 생성하기. 우리 [팀/부서]에서 사용하는 다음 KPI에 대한 지표 정의 문서를 작성해 주세요: [지표 목록, 예: DAU, 이탈률 (churn rate), NPS, CAC, LTV]. 각 지표에는 다음 내용을 포함하세요: 쉬운 영어(plain-English) 정의, 정확한 계산 공식, 데이터 소스, 업데이트 빈도, 그리고 알려진 한계점 또는 예외 사례 (edge cases).

깔끔한 표 형식으로 작성하세요.

Python 및 자동화 (Automation)

반복적인 데이터 추출 자동화
다음 조건에 맞는 주간 데이터 추출 작업을 자동화해야 합니다: [데이터베이스/API]에 연결하고, [쿼리 또는 요청 내용 기술]을 실행하며, 출력 결과를 [위치]에 CSV로 저장하고, [수신자]에게 요약 이메일을 보냅니다. 이를 수행하는 Python 스크립트를 작성해 주세요. 데이터베이스 연결에는 [pandas / SQLAlchemy / psycopg2]를 사용하고, 이메일 전송에는 [smtplib / SendGrid]를 사용합니다.
지저분한 데이터 정제 및 표준화
다음과 같은 문제들이 있는 지저분한 pandas DataFrame이 있습니다: [문제 내용 기술, 예: X 컬럼의 일관되지 않은 날짜 형식, Y 컬럼의 대소문자가 섞인 텍스트, A 및 B 컬럼 기준 중복 행, Z 숫자 컬럼의 달러 기호 포함]. 데이터를 정제 및 표준화하고, 예외 사례 (edge cases)를 처리하며, 각 작업에 의해 영향을 받은 레코드 수를 보여주는 작업 전/후 요약(before/after summary)을 출력하는 Python 코드를 작성해 주세요.
재사용 가능한 데이터 파이프라인 함수 구축
원시 CSV 파일 경로를 입력으로 받아 다음 변환을 수행하는 재사용 가능한 Python 함수를 작성하세요: [변환 목록]. 또한 출력이 다음 조건들을 충족하는지 검증하고: [검증 목록], 검증에 실패한 행은 별도의 파일에 로그를 남기며, 정제된 DataFrame을 반환해야 합니다. Docstring과 타입 힌트 (type hints)를 포함하세요.
주간 보고서 자동화
주간 성과 보고서를 생성하는 Python 스크립트를 작성하세요. 이 스크립트는 다음을 수행해야 합니다: [소스]에서 데이터를 읽고, 다음 지표들을 계산합니다: [지표 목록], [차트 설명]을 위한 시각화 자료를 생성하며, [matplotlib / plotly / jinja2]를 사용하여 모든 내용을 PDF 또는 HTML 보고서로 결합하고, 현재 날짜가 포함된 파일 이름으로 저장합니다. 에러 처리 (error handling)를 포함하세요.
데이터 변환을 위한 단위 테스트 작성
데이터를 변환하는 다음 Python 함수가 있습니다: [함수 붙여넣기]. 다음 사항들을 다루는 pytest를 사용한 포괄적인 단위 테스트 (unit tests) 세트를 작성하세요: 정상적인 예상 입력, 예외 사례 (edge cases: 빈 DataFrame, null 값, 예상치 못한 데이터 타입), 그리고 함수가 반드시 충족해야 하는 알려진 비즈니스 로직 규칙. 샘플 데이터가 포함된 테스트 픽스처 (test fixture)를 포함하세요.

커리어 개발 및 기술 구축 (Career Development and Skill Building)

개인 맞춤형 학습 계획 생성하기: 저는 [X]년 차 데이터 분석가입니다. 현재 저의 기술은 다음과 같습니다: [기술 목록]. 저의 목표는 [기간] 내에 [커리어 목표, 예: 시니어 분석가 역할로 승진 / 데이터 사이언스(Data Science)로 전환 / 프로덕트 분석(Product Analytics) 전문화]를 달성하는 것입니다. 저의 진행 상황을 추적할 수 있도록 구체적인 리소스, 프로젝트, 마일스톤(Milestone)이 포함된 구조화된 3개월 학습 계획을 작성해 주세요.
데이터 분석가 인터뷰 준비하기: 저는 [산업 분야] 기업의 [직급] 데이터 분석가 역할 인터뷰를 앞두고 있습니다. 직무 기술서(Job Description)에는 다음과 같은 내용이 명시되어 있습니다: [주요 요구 사항 붙여넣기]. 이 역할에서 나올 가능성이 가장 높은 기술 면접 및 행동 면접(Behavioral Interview) 질문 10가지를 알려주세요.

데이터 분석가를 위한 35가지 ChatGPT 프롬프트: 통찰력 추출 가속화, 결과 전달 및 기술 향상

요약

핵심 포인트

댓글