Python爬取ChatGPT数据实战：技术选型与反反爬策略

2次阅读

没有评论

共计 1660 个字符，预计需要花费 5 分钟才能阅读完成。

直接爬取 ChatGPT 网页端面临三大技术难点：

动态渲染 ：前端采用 React 等框架生成动态内容，传统爬虫无法直接获取有效数据
Cloudflare 防护 ：包括 5 秒盾、人机验证等多层防御机制，常规请求会被拦截
会话维持 ：需要处理 cookies、JWT 令牌等认证凭证的自动更新

Selenium/Playwright
优点：
完全模拟用户操作行为
可处理复杂交互场景
缺点：
资源占用高（每个实例需启动完整浏览器）
运行速度慢（受页面加载时间制约）

直接调用接口
优点：
请求效率高（绕过 UI 渲染环节）
资源消耗低
缺点：
需要逆向分析接口协议
需持续维护参数加密逻辑

使用动态 UA 生成器：

from fake_useragent import UserAgent
ua = UserAgent()
headers = {
    'User-Agent': ua.random,
    'Accept-Language': 'en-US,en;q=0.9'
}

import requests
from itertools import cycle

proxies = [
    'http://proxy1.example.com:8080',
    'http://proxy2.example.com:8080'
]
proxy_pool = cycle(proxies)

session = requests.Session()
session.proxies = {'http': next(proxy_pool)}

指数退避算法实现：

import time
import random

def exponential_backoff(retries):
    base_delay = 1
    max_delay = 60
    delay = min(max_delay, base_delay * (2 ** retries) + random.random())
    time.sleep(delay)

import aiohttp
import asyncio
from typing import Optional, Dict

class ChatGPTScraper:
    """异步爬虫核心类"""

    def __init__(self, max_retries=3):
        self.max_retries = max_retries
        self.session = None

    async def initialize(self):
        """初始化会话"""
        self.session = aiohttp.ClientSession(headers=self._generate_headers(),
            timeout=aiohttp.ClientTimeout(total=30)
        )

    async def fetch(self, url: str, params: Optional[Dict] = None) -> str:
        """执行请求"""
        for attempt in range(self.max_retries):
            try:
                async with self.session.get(url, params=params) as response:
                    response.raise_for_status()
                    return await response.text()
            except Exception as e:
                if attempt == self.max_retries - 1:
                    raise
                await asyncio.sleep(2 ** attempt)  # 指数退避