Python实战：基于Pandas和TA-Lib的股票分析技能进阶指南

8次阅读

共计 2568 个字符，预计需要花费 7 分钟才能阅读完成。

做股票分析时，新手常陷入两个极端：要么用 Excel 手动计算累到崩溃，要么直接调用券商 API 却看不懂指标含义。曾经我为了计算某支股票的 20 日均线，居然用 for 循环遍历了 3 万行数据——结果电脑卡了 10 分钟。后来发现，用 Pandas 的 rolling()方法只需一行代码，耗时不到 1 秒。

遇到金融数据分析时，通常会面临三个选择：

纯 Pandas 方案：适合基础指标计算，但实现 MACD 等复杂指标需要自己写公式
NumPy 方案：计算速度最快，但需要处理维度对齐等底层问题
TA-Lib 方案：包含 130+ 预置技术指标，经过华尔街验证的准确实现

经过实测对比（使用 Jupyter Notebook 的 %timeit 魔法命令）：

计算 RSI(14)：
自写 Pandas 版本：8.7ms
TA-Lib 版本：1.2ms

从 Tushare 获取的原始数据经常存在以下问题：

import pandas as pd
import numpy as np

# 典型问题数据示例
dirty_data = pd.DataFrame({'trade_date': ['20230101', '20230102', '20230103'],
    'close': [15.6, np.nan, 16.2],  # 存在缺失值
    'volume': [1567800, 1892500, 0]  # 成交量为 0 的异常值
})

# 清洗流水线
def clean_ohlc(df):
    # 转换日期格式
    df['trade_date'] = pd.to_datetime(df['trade_date'])

    # 处理缺失值：前向填充
    df['close'].fillna(method='ffill', inplace=True)

    # 剔除零成交量交易日（可能是停牌日）df = df[df['volume'] > 0]

    return df.set_index('trade_date')

安装 TA-Lib 时有个坑：需要先安装系统依赖，再用 pip 安装 Python 封装：

# Ubuntu 系统
sudo apt-get install libta-lib-dev
pip install TA-Lib

计算 MACD 指标的黄金姿势：

import talib

# 准备数据
df['macd'], df['signal'], df['hist'] = talib.MACD(df['close'],
    fastperiod=12,
    slowperiod=26,
    signalperiod=9
)

# 添加可视化标记
df['golden_cross'] = (df['macd'] > df['signal']) & (df['macd'].shift() < df['signal'].shift())
df['death_cross'] = (df['macd'] < df['signal']) & (df['macd'].shift() > df['signal'].shift())

Plotly 的交互式图表比 Matplotlib 更适合金融数据：

import plotly.graph_objects as go

fig = go.Figure()
# 主图：K 线
fig.add_trace(go.Candlestick(
    x=df.index,
    open=df['open'],
    high=df['high'],
    low=df['low'],
    close=df['close']
))

# 副图：MACD
fig.add_trace(go.Scatter(
    x=df.index,
    y=df['macd'],
    name='MACD',
    yaxis='y2'
))

# 金叉死叉标记
fig.add_trace(go.Scatter(x=df[df['golden_cross']].index,
    y=df[df['golden_cross']]['high']*1.01,
    mode='markers',
    marker_symbol='triangle-up',
    name='金叉'
))

错误示范（循环计算 RSI）：

# 千万不要这样写！rsi_values = []
for i in range(len(df)):
    if i < 14:
        rsi_values.append(np.nan)
    else:
        # 计算涨跌幅...

正确做法：

df['returns'] = df['close'].pct_change()
df['gain'] = df['returns'].where(df['returns'] > 0, 0)
df['loss'] = -df['returns'].where(df['returns'] < 0, 0)

# 使用 rolling 计算平均增益 / 损失
avg_gain = df['gain'].rolling(14).mean()
avg_loss = df['loss'].rolling(14).mean()

rs = avg_gain / avg_loss
df['rsi'] = 100 - (100 / (1 + rs))

处理多年份的分钟级数据时，注意：