ChatGPT实战：从零构建统计分析与数据可视化工作流

12次阅读

没有评论

共计 2447 个字符，预计需要花费 7 分钟才能阅读完成。

最近接到一个电商用户行为分析的需求：需要从 3 个月的订单日志中找出购买转化率下降的原因。原始数据包含用户点击流、订单记录和商品信息，格式混杂着 CSV 和 JSON。作为刚入门数据分析的新手，我面临几个典型问题：

Pandas 的 DataFrame 操作不熟练，经常要边查文档边写代码
Matplotlib 图表调整样式要反复试错，一个饼图标签遮挡就折腾半小时
数据清洗时遇到缺失值和异常值，不知道标准处理方法

对比传统开发模式，ChatGPT 带来三个显著优势：

自然语言交互：可以直接用 ” 如何计算每个用户的平均停留时间 ” 这样的口语提问
即时反馈调试：生成代码后可以继续要求 ” 把柱状图颜色改为渐变色 ”
知识融合：自动结合统计学常识（比如提醒我检查正态分布假设）

假设我们有个 user_behavior.csv 文件，先给 ChatGPT 这样的 Prompt：

请帮我清洗电商用户数据，要求：1. 处理 price 字段中的货币符号和千分位符
2. 将 event_time 转为 datetime 类型并提取周几信息
3. 对 user_id 做 MD5 加密保护隐私
4. 输出处理后的数据前 5 行示例

数据格式示例：user_id,event_time,price
"123","2023-07-01 14:30","$1,299.00"

得到的 Python 代码会包含关键操作：

import pandas as pd
import hashlib

def clean_data(df):
    # 价格清洗
    df['price'] = df['price'].str.replace('[$,]', '', regex=True).astype(float)

    # 时间处理
    df['event_time'] = pd.to_datetime(df['event_time'])
    df['day_of_week'] = df['event_time'].dt.day_name()

    # 用户 ID 加密
    df['user_id'] = df['user_id'].apply(lambda x: hashlib.md5(x.encode()).hexdigest())

    return df

通过对话式指令完成分析：

“””
请对清洗后的数据做以下分析：
1. 计算每个工作日的人均消费金额
2. 输出购买次数与消费金额的 Pearson 相关系数
3. 检查价格字段的偏度和峰度
“””

ChatGPT 会返回包含统计检验的完整代码，并解释：

# 工作日消费分析
weekday_stats = df.groupby('day_of_week')['price'].agg(['mean', 'count'])

# 相关性分析
corr = df[['purchase_count', 'price']].corr(method='pearson')

# 分布形态检验
from scipy.stats import skew, kurtosis
price_skew = skew(df['price'].dropna())
price_kurt = kurtosis(df['price'].dropna())

生成交互式图表的关键 Prompt：

“””
用 Plotly 绘制：
1. 每周各天消费热力图，x 轴为星期，y 轴为小时
2. 价格分布的小提琴图 + 箱线图组合
3. 添加悬停显示均值 / 中位数功能
4. 使用 px.colors.sequential.Viridis 配色
“””

产出代码示例：

import plotly.express as px

# 热力图
fig1 = px.density_heatmap(
    df, x='day_of_week', y='hour', 
    z='price', histfunc='avg',
    color_continuous_scale=px.colors.sequential.Viridis
)

# 组合图表
fig2 = px.violin(df, y='price', box=True, 
                hover_data={'mean': df['price'].mean(),
                           'median': df['price'].median()})

本地处理原则：所有敏感数据在本地环境处理，避免通过 API 传输
字段脱敏：对 user_id 等字段做单向哈希（如 MD5/SHA256）
模拟数据调试 ：先用pd.util.testing.makeDataFrame() 生成假数据测试流程

当数据量超过 1GB 时：

分块读取：pd.read_csv('data.csv', chunksize=100000)
分布式计算：建议改用 Dask 或 PySpark
采样分析：df.sample(frac=0.1) 随机抽取 10% 数据

分析目标	推荐图表	ChatGPT 提示词关键词
趋势变化	折线图 / 面积图	“trend over time”
占比关系	旭日图 / 饼图	“percentage breakdown”
分布对比	小提琴图 / 直方图	“distribution compare”
多变量关系	散点矩阵 / 平行坐标	“multivariate analysis”