Python WebDriver 爬取 ChatGPT 实战指南：从入门到避坑

2次阅读

没有评论

共计 1659 个字符，预计需要花费 5 分钟才能阅读完成。

ChatGPT 作为基于浏览器的交互式应用，其内容动态加载、反爬机制严格的特点使得传统爬虫难以直接获取数据。主要难点包括：

动态内容加载 ：聊天内容通过 JavaScript 动态渲染，普通 HTTP 请求无法捕获
反爬机制 ：包括验证码、请求频率限制、行为检测等
会话管理 ：需要维持登录状态，处理超时和重新认证

常见浏览器自动化工具对比：

Selenium：
优点：社区支持完善，兼容多种浏览器
缺点：执行速度较慢
Playwright：
优点：支持多浏览器，执行效率高
缺点：较新，社区资源相对较少

选择 WebDriver 的原因：

成熟稳定，适合新手入门
丰富的文档和社区支持
灵活的浏览器控制能力

# 安装必要库
pip install selenium webdriver-manager

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager

# 初始化 WebDriver
driver = webdriver.Chrome(ChromeDriverManager().install())

try:
    # 访问 ChatGPT
    driver.get('https://chat.openai.com/')

    # 等待登录完成（手动）input('请手动登录后按回车继续...')

    # 定位输入框
    text_area = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.TAG_NAME, 'textarea'))
    )

    # 输入问题
    text_area.send_keys('Python WebDriver 如何爬取动态内容？')

    # 定位发送按钮并点击
    send_button = driver.find_element(By.CSS_SELECTOR, 'button[data-testid="send-button"]'
    )
    send_button.click()

    # 等待响应
    response = WebDriverWait(driver, 30).until(EC.presence_of_element_located((By.CSS_SELECTOR, 'div[class*="markdown"]'))
    )

    # 获取响应内容
    print(response.text)

finally:
    driver.quit()