데이터 분석가를 위한 35가지 ChatGPT 프롬프트: 통찰력 추출 가속화, 결과 전달 및 기술 향상
요약
데이터 분석가의 업무 효율을 높이기 위해 데이터 탐색(EDA), SQL 작성 및 디버깅, 데이터 프로파일링 등에 활용할 수 있는 35가지 ChatGPT 프롬프트를 소개합니다. 이 가이드는 주니어부터 시니어 분석가까지 데이터 정제, 쿼리 최적화, 결과 보고 과정을 자동화하고 통찰력을 빠르게 추출하는 데 도움을 줍니다.
핵심 포인트
- 데이터 탐색 및 EDA 단계에서 결측치 처리, 이상치 탐지, 변수 간 상관관계 분석을 위한 체계적인 프롬프트 제공
- SQL 작성, 오류 디버깅, 성능 최적화를 위한 데이터베이스별 맞춤형 쿼리 생성 및 가이드
- 기술적 지식이 없는 이해관계자를 위해 복잡한 데이터를 쉬운 언어로 요약하는 데이터 프로파일링 방법
- Python(pandas, seaborn 등) 코드를 활용한 데이터 시각화 및 분석 자동화 지원
데이터 분석가들은 지저분한 데이터셋을 정리하고, 복잡한 쿼리 (Query)를 작성하며, 숫자를 의사결정을 이끄는 이야기로 변환하는 데 수많은 시간을 소비합니다. ChatGPT는 지치지 않는 협업자 역할을 할 수 있습니다. 데이터를 더 빠르게 탐색하고, 몇 초 만에 SQL을 디버깅하며, 명확하고 경영진에게 보고하기 적합한 보고서를 작성하도록 도와줍니다. 도구 세트를 구축 중인 주니어 분석가든, 반복적인 업무를 자동화하려는 시니어 분석가든, 이 35가지 프롬프트는 여러분의 업무 방식을 바꿔 놓을 것입니다.
데이터 탐색 및 EDA (Exploratory Data Analysis)
-
새로운 데이터셋을 한눈에 파악하기
다음 컬럼들로 구성된 데이터셋이 있습니다: [컬럼 목록 및 데이터 타입]. 다음을 포함한 구조화된 EDA 계획을 세워주세요: 질문해야 할 핵심 질문, 확인해야 할 잠재적인 데이터 품질 문제, 검토해야 할 분포, 그리고 탐색할 가치가 있는 변수 간의 관계. -
결측치 식별 및 처리
[컬럼 이름]에 18%의 결측치가 있고 [컬럼 이름]에 4%의 결측치가 있는 데이터셋을 분석 중입니다. 각 결측치를 처리하기 위한 가장 적절한 전략을 제안하고, 삭제 (Deletion), 평균/중앙값 대체 (Mean/Median Imputation), 모델 기반 대체 (Model-based Imputation) 사이의 트레이드오프 (Trade-off)를 설명하며, 제안한 내용을 구현할 Python 코드를 제공해 주세요. -
지능적인 이상치 탐지
내 데이터셋에는 [측정 대상]을 나타내는 숫자형 컬럼 [컬럼 이름]이 있습니다. 세 가지 다른 이상치 탐지 방법(IQR, Z-score, Isolation Forest)을 단계별로 설명하고, 각각 언제 가장 적합한지 설명하며, 세 가지 방법을 모두 적용하여 결과를 표시할 Python 코드를 제공해 주세요. -
이해관계자 요약을 위한 데이터 프로파일링
기술적 지식이 없는 이해관계자를 위한 데이터 프로필 요약을 작성해야 합니다. 다음 컬럼 이름과 샘플 값을 참고하세요: [샘플 붙여넣기]. 데이터셋에 무엇이 포함되어 있는지, 시간 범위, 핵심 지표, 그리고 분석 전에 제가 표시해야 할 명백한 데이터 품질 우려 사항을 쉬운 영어(Plain-English)로 요약해 주세요. -
상관관계 및 관계 탐색
내 데이터셋의 변수 간 관계를 이해하고 싶습니다. 컬럼은 다음과 같습니다: [컬럼 목록].
상관관계 분석을 위해 어떤 변수 쌍을 가장 중점적으로 검토해야 하는지 제안하고, 각 쌍에 적합한 상관관계 분석 방법(Pearson, Spearman 또는 Cramér's V)을 추천해 주세요. 또한 pandas와 seaborn을 사용하여 주요 관계를 시각화할 수 있는 Python 코드를 작성해 주세요.
SQL 및 쿼리 작성
-
복잡한 집계 쿼리 작성하기
[database type: PostgreSQL/MySQL/BigQuery/Snowflake]를 사용하여, [condition]으로 필터링하고 [time period] 동안 각 [dimension]별 [metric]을 계산하여 높은 순서부터 낮은 순서로 순위를 매기는 SQL 쿼리를 작성해 주세요. 테이블 이름은 [table]이며, 관련 컬럼은 [columns]입니다. 각 섹션을 설명하는 주석을 추가해 주세요. -
오류가 발생한 SQL 쿼리 디버깅하기
이 SQL 쿼리가 잘못된 결과를 반환하거나 / 에러를 발생시킵니다. 쿼리는 다음과 같습니다: [paste query]. 에러 메시지 또는 예상치 못한 출력은 다음과 같습니다: [describe issue]. 테이블 스키마(Schema)는 다음과 같습니다: [schema]. 문제를 진단하고, 왜 발생하는지 설명한 뒤, 수정된 버전을 제공해 주세요. -
느리게 실행되는 쿼리 최적화하기
[X]백만 개의 행이 있는 테이블에서 이 쿼리가 너무 느리게 실행됩니다: [paste query]. 인덱싱(Indexing) 전략, 쿼리 구조 재설계, 전체 테이블 스캔(Full table scan) 방지, 그리고 실행 속도를 높일 수 있는 [database type] 전용 기능을 포함하여 구체적인 최적화 방안을 제안해 주세요. 최적화된 버전으로 다시 작성해 주세요. -
코호트 분석(Cohort Analysis) 쿼리 작성하기
사용자 유지율(Retention)에 대한 코호트 분석을 수행하는 SQL 쿼리를 작성해 주세요. 저에게는 user_id, event_date, event_type 컬럼이 있는 [table name]이라는 테이블이 있습니다. 사용자의 첫 이벤트가 발생한 달을 기준으로 코호트를 정의한 다음, 획득 후 1개월부터 6개월까지의 유지율을 계산해 주세요. [PostgreSQL/BigQuery/Snowflake] 문법을 사용하세요. -
비즈니스 질문을 SQL로 변환하기
다음 비즈니스 질문을 SQL 쿼리로 변환해 주세요: "[business question, 예: 작년 1분기 대비 4분기에 지역별로 가장 높은 매출 성장을 보인 제품 카테고리는 무엇인가요?]". 제 데이터베이스에는 다음과 같은 테이블과 컬럼이 있습니다: [describe schema]. 쿼리를 작성하고 논리 과정을 단계별로 설명해 주세요.
데이터 시각화 및 대시보드 디자인
다음 내용을 시각화하는 데 필요한 적절한 차트 유형을 선택해 주세요: [보여주고 싶은 내용 설명, 예: 4개의 제품 라인에 걸쳐 18개월 동안의 월간 활성 사용자(MAU) 변화]. 가장 효과적인 차트 유형을 추천하고, 왜 다른 대안보다 더 나은지 설명하며, 출판물 수준의 품질을 구현할 수 있도록 matplotlib 또는 plotly를 사용한 Python 코드를 제공해 주세요.
-
KPI 대시보드 레이아웃 설계: 저는 [대상: 예: 마케팅 팀 / 경영진]을 위해 [주제: 예: 캠페인 성과]에 초점을 맞춘 대시보드를 구축하고 있습니다. 다음을 포함한 대시보드 레이아웃을 제안해 주세요: 어떤 KPI를 눈에 띄게 배치할지, 어떤 보조 차트를 포함할지, 가독성을 위해 섹션을 어떻게 구성할지, 그리고 [Tableau/Power BI/Looker]에서 가치를 더할 수 있는 상호작용(interactivity) 기능은 무엇인지.
-
세련된 시각화를 위한 Python 코드 작성: plotly를 사용하여 [보여주는 내용]을 나타내는 인터랙티브한 [차트 유형]을 생성하는 Python 코드를 작성해 주세요. 데이터에는 다음과 같은 컬럼이 있습니다: [컬럼]. 요구 사항: 전문적인 색상 팔레트(color palette)를 사용하고, 적절한 축 레이블과 제목을 포함하며, [상세 정보]를 보여주는 툴팁(tooltip)을 추가하고, 이해관계자 보고서에 삽입하기 적합하도록 만드세요.
-
시각화 비판 및 개선: 제가 만든 차트에 대해 설명할 테니 피드백을 주세요. 차트 유형: [유형]. 보여주는 내용: [설명]. 의심되는 현재 문제점: [본인의 우려 사항]. 데이터-잉크 비율(data-ink ratio), 색상 선택, 레이블링, 축 스케일링(axis scaling), 그리고 차트 유형이 메시지와 일치하는지를 포함하여 구조화된 비판을 제공해 주세요. 그 다음, 재설계된 버전을 제안해 주세요.
-
서브플롯(subplots)을 활용한 Matplotlib 대시보드 구축: matplotlib를 사용하여 2x2 그리드로 배열된 4개의 서브플롯을 가진 단일 피규어(single-figure) 대시보드를 생성하는 Python 코드를 작성해 주세요. 차트에는 다음 내용이 포함되어야 합니다: [차트 1 설명], [차트 2 설명], [차트 3 설명], [차트 4 설명]. 일관된 색상 체계를 사용하고, 메인 제목을 추가하며, 레이아웃에서 레이블이 겹치지 않도록 하세요. 다음 샘플 데이터 구조를 사용하세요: [컬럼 설명].
통계 분석 및 해석
적절한 통계 검정 방법을 선택하고 실행하세요. 나는 [테스트하려는 내용, 예: 두 랜딩 페이지 변형 간의 전환율이 유의미하게 다른지]를 결정하고 싶습니다. 나의 샘플 크기는 [n1]과 [n2]이며, 데이터는 [분포/유형 설명]와 같습니다. 올바른 통계 검정 (statistical test)을 추천하고, 내가 확인해야 할 가정 (assumptions)을 설명하며, 이를 실행하고 결과를 해석하기 위한 Python 코드를 제공하세요.
-
A/B 테스트 결과 해석하기. 나는 다음과 같은 결과로 A/B 테스트를 수행했습니다: 대조군 (Control group): [n]명 사용자, [x]% 전환율. 처치군 (Treatment group): [n]명 사용자, [x]% 전환율. 테스트 기간은 [duration]입니다. 이 결과들을 해석해 주세요: 차이가 통계적으로 유의미한가요 (statistically significant)? 실질적인 유의성 (practical significance)은 무엇인가요? 여기서 적절한 신뢰 수준 (confidence level)은 무엇인가요? 변경 사항을 배포 (ship)해야 할까요? 당신의 논거를 설명하세요.
-
통계 개념을 쉬운 언어로 설명하기. [통계 개념: 예: p-value / 신뢰 구간 (confidence interval) / 통계적 검정력 (statistical power) / 평균으로의 회귀 (regression to the mean)]를 비즈니스 청중에게 적합한 쉬운 언어로 설명해 주세요. [산업/도메인]과 관련된 구체적인 예시를 사용하세요. 그런 다음, 이 개념이 우리 분석에 왜 중요한지 설명하기 위해 보고서에 바로 붙여넣을 수 있는 한 단락 분량의 요약을 제공해 주세요.
-
교란 변수 (confounding variables) 식별 및 해결하기. 나는 내 데이터셋에서 [변수 A]와 [변수 B] 사이의 관계를 분석하고 있습니다. 맥락은 [비즈니스 상황 설명]입니다. 내가 통제해야 할 잠재적인 교란 변수들을 식별하고, 각 변수가 어떻게 내 결과에 편향 (bias)을 줄 수 있는지 설명하며, 이를 해결하기 위한 분석적 접근 방식 (층화 (stratification), 회귀 통제 (regression controls), 매칭 (matching))을 제안해 주세요.
-
회귀 모델 (regression model) 검증하기. 나는 다음 피처 (features)들을 사용하여 [타겟 변수 (target variable)]를 예측하는 선형 회귀 (linear regression) 모델을 구축했습니다: [피처 목록]. 내 모델의 R-제곱 (R-squared) 값은 [value], RMSE는 [value]이며, 잔차 도표 (residual plot)는 [설명]와 같습니다. 이 모델이 신뢰할 수 있는지 평가하고, 잠재적인 문제점 (과적합 (overfitting), 이분산성 (heteroscedasticity), 다중공선성 (multicollinearity))을 식별하며, 모델을 개선하기 위한 구체적인 다음 단계를 제안해 주세요.
비즈니스 보고 및 이해관계자 커뮤니케이션 (Business Reporting and Stakeholder Communication)
-
다음 분석 결과 데이터를 바탕으로 경영진 요약 (executive summary)을 작성해 주세요: [주요 수치 및 결과 붙여넣기]. [C-suite / 마케팅 부사장 / 이사회]를 대상으로, 가장 중요한 통찰력(insight)을 서두에 배치하고, 2~3개의 핵심 데이터 포인트로 이를 뒷받침하며, 명확한 권장 사항(recommendation)으로 마무리하는 3문단 분량의 경영진 요약을 작성해 주세요. 직접적이고 자신감 있는 언어를 사용하고 전문 용어 (technical jargon)는 피하세요.
-
데이터 덤프 (data dump)를 내러티브 (narrative)로 전환하기. 여기 우리 [월간/분기별] 분석의 원시 지표 (raw metrics)가 있습니다: [지표 붙여넣기]. 일관된 이야기를 들려주는 데이터 내러티브를 구성하는 것을 도와주세요. 가장 중요한 단일 트렌드를 식별하고, 내러티브 구조 (narrative arc: 맥락, 복잡성, 해결)를 제안하며, 5분 분량의 이해관계자 발표에 사용할 수 있는 구조화된 개요를 작성해 주세요.
-
분석 결과에 이의를 제기하는 이해관계자에게 대응하기. 한 이해관계자가 내 분석에 대해 다음과 같이 반박했습니다: "[그들의 정확한 반론, 예: '이 데이터는 현장에서 보는 것과 일치하지 않습니다' 또는 '표본 크기가 너무 작아 의미가 없습니다']". 내 분석 방법론 (analysis methodology)은 다음과 같았습니다: [간략한 설명]. 그들의 우려 사항을 직접적으로 다루고, 타당한 지점은 인정하며, 적절한 경우 내 작업의 무결성 (integrity)을 방어하는 전문적이고 자신감 있는 답변 초안 작성을 도와주세요.
-
데이터 주의 사항 (data caveat) 섹션 작성하기. 나는 [주제]에 관한 보고서를 작성 중이며, 한계점 및 주의 사항 (limitations and caveats) 섹션을 포함해야 합니다. 내 데이터 소스 (data sources)는 [소스]이고, 기간은 [날짜]이며, 알려진 문제로는 [공백, 표본 편향(sampling biases) 또는 측정 문제 설명] 등이 있습니다. 전체 결과에 대한 신뢰를 떨어뜨리지 않으면서도 한계점에 대해 투명하게 밝히는 전문적인 주의 사항 섹션을 작성해 주세요.
-
지표 정의 문서 (metrics definition document) 생성하기. 우리 [팀/부서]에서 사용하는 다음 KPI에 대한 지표 정의 문서를 작성해 주세요: [지표 목록, 예: DAU, 이탈률 (churn rate), NPS, CAC, LTV]. 각 지표에는 다음 내용을 포함하세요: 쉬운 영어(plain-English) 정의, 정확한 계산 공식, 데이터 소스, 업데이트 빈도, 그리고 알려진 한계점 또는 예외 사례 (edge cases).
깔끔한 표 형식으로 작성하세요.
Python 및 자동화 (Automation)
-
반복적인 데이터 추출 자동화
다음 조건에 맞는 주간 데이터 추출 작업을 자동화해야 합니다: [데이터베이스/API]에 연결하고, [쿼리 또는 요청 내용 기술]을 실행하며, 출력 결과를 [위치]에 CSV로 저장하고, [수신자]에게 요약 이메일을 보냅니다. 이를 수행하는 Python 스크립트를 작성해 주세요. 데이터베이스 연결에는 [pandas / SQLAlchemy / psycopg2]를 사용하고, 이메일 전송에는 [smtplib / SendGrid]를 사용합니다. -
지저분한 데이터 정제 및 표준화
다음과 같은 문제들이 있는 지저분한 pandas DataFrame이 있습니다: [문제 내용 기술, 예: X 컬럼의 일관되지 않은 날짜 형식, Y 컬럼의 대소문자가 섞인 텍스트, A 및 B 컬럼 기준 중복 행, Z 숫자 컬럼의 달러 기호 포함]. 데이터를 정제 및 표준화하고, 예외 사례 (edge cases)를 처리하며, 각 작업에 의해 영향을 받은 레코드 수를 보여주는 작업 전/후 요약(before/after summary)을 출력하는 Python 코드를 작성해 주세요. -
재사용 가능한 데이터 파이프라인 함수 구축
원시 CSV 파일 경로를 입력으로 받아 다음 변환을 수행하는 재사용 가능한 Python 함수를 작성하세요: [변환 목록]. 또한 출력이 다음 조건들을 충족하는지 검증하고: [검증 목록], 검증에 실패한 행은 별도의 파일에 로그를 남기며, 정제된 DataFrame을 반환해야 합니다. Docstring과 타입 힌트 (type hints)를 포함하세요. -
주간 보고서 자동화
주간 성과 보고서를 생성하는 Python 스크립트를 작성하세요. 이 스크립트는 다음을 수행해야 합니다: [소스]에서 데이터를 읽고, 다음 지표들을 계산합니다: [지표 목록], [차트 설명]을 위한 시각화 자료를 생성하며, [matplotlib / plotly / jinja2]를 사용하여 모든 내용을 PDF 또는 HTML 보고서로 결합하고, 현재 날짜가 포함된 파일 이름으로 저장합니다. 에러 처리 (error handling)를 포함하세요. -
데이터 변환을 위한 단위 테스트 작성
데이터를 변환하는 다음 Python 함수가 있습니다: [함수 붙여넣기]. 다음 사항들을 다루는 pytest를 사용한 포괄적인 단위 테스트 (unit tests) 세트를 작성하세요: 정상적인 예상 입력, 예외 사례 (edge cases: 빈 DataFrame, null 값, 예상치 못한 데이터 타입), 그리고 함수가 반드시 충족해야 하는 알려진 비즈니스 로직 규칙. 샘플 데이터가 포함된 테스트 픽스처 (test fixture)를 포함하세요.
커리어 개발 및 기술 구축 (Career Development and Skill Building)
-
개인 맞춤형 학습 계획 생성하기: 저는 [X]년 차 데이터 분석가입니다. 현재 저의 기술은 다음과 같습니다: [기술 목록]. 저의 목표는 [기간] 내에 [커리어 목표, 예: 시니어 분석가 역할로 승진 / 데이터 사이언스(Data Science)로 전환 / 프로덕트 분석(Product Analytics) 전문화]를 달성하는 것입니다. 저의 진행 상황을 추적할 수 있도록 구체적인 리소스, 프로젝트, 마일스톤(Milestone)이 포함된 구조화된 3개월 학습 계획을 작성해 주세요.
-
데이터 분석가 인터뷰 준비하기: 저는 [산업 분야] 기업의 [직급] 데이터 분석가 역할 인터뷰를 앞두고 있습니다. 직무 기술서(Job Description)에는 다음과 같은 내용이 명시되어 있습니다: [주요 요구 사항 붙여넣기]. 이 역할에서 나올 가능성이 가장 높은 기술 면접 및 행동 면접(Behavioral Interview) 질문 10가지를 알려주세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기