如何用Zotero+ChatGPT自动化文献综述：从数据收集到智能分析

6次阅读

共计 2880 个字符，预计需要花费 8 分钟才能阅读完成。

传统文献综述往往需要经历以下痛苦流程：

手动收集数百篇 PDF 文献
逐篇阅读摘要和结论部分
人工整理研究方法和关键结论
尝试归纳领域研究趋势

这个过程通常要耗费数周时间，而且容易出现：

重要文献遗漏
主观判断偏差
趋势分析不全面
格式整理耗时

flowchart TD
    A[Zotero 文献库] -->|API 调用 | B[文献元数据]
    B --> C[数据清洗]
    C --> D[ChatGPT 分析]
    D --> E[可视化报告]

首先获取 API 密钥：
登录 Zotero 官网
进入设置→API 密钥
创建新密钥并记录
重要端点说明：
/users/<userID>/items 获取所有条目
/users/<userID>/items/top 获取顶级条目
?format=json&limit=100 常用参数
数据返回结构：
每个 item 包含 doi、标题、作者等字段
附件信息在 links 字段中

核心原则：

明确分析任务类型（摘要 / 趋势 / 对比）
提供结构化输出要求
限制响应长度

示例模板：

你是一位专业的科研助手，请基于以下文献列表：[插入文献标题列表]

1. 用 50 字概括每篇核心贡献
2. 识别出现频率最高的 3 个方法
3. 指出近 3 年的研究趋势变化

用 Markdown 表格格式回复。

import requests
import json

# 配置参数
api_key = "YOUR_API_KEY"
user_id = "YOUR_USER_ID"
collection_id = "TARGET_COLLECTION"  # 可选

headers = {
    "Zotero-API-Key": api_key,
    "Content-Type": "application/json"
}

def get_zotero_items():
    url = f"https://api.zotero.org/users/{user_id}/items/top"
    params = {
        "format": "json",
        "limit": 50,
        "collection": collection_id
    }

    response = requests.get(url, headers=headers, params=params)
    if response.status_code == 200:
        return response.json()
    else:
        print(f"Error: {response.status_code}")
        return None

# 示例调用
items = get_zotero_items()
with open('zotero_export.json', 'w') as f:
    json.dump(items, f, indent=2)

from openai import OpenAI
import tiktoken

client = OpenAI(api_key="your_api_key")

def analyze_with_chatgpt(text_data):
    prompt = f"""
    请分析以下学术文献信息：{text_data}

    请按以下要求处理：1. 提取每篇文献的 3 个关键词
    2. 按年份统计研究方法变化
    3. 生成领域研究热点词云

    用 JSON 格式返回结果。"""

    response = client.chat.completions.create(
        model="gpt-4",
        messages=[{"role": "system", "content": "你是一位专业的科研分析助手"},
            {"role": "user", "content": prompt}
        ],
        temperature=0.7,
        max_tokens=2000
    )

    return response.choices[0].message.content

使用 time.sleep() 控制请求频率（Zotero 限制 5 次 / 秒）
对大规模文献库使用分页参数：&start=NUM&limit=100
本地缓存已获取数据避免重复请求

质量校验方法：
设置必须包含的字段（如 DOI、年份）
验证生成内容的参考文献是否真实存在
对矛盾结果进行二次验证
学术伦理红线：
不得直接复制生成内容作为原创
AI 辅助需在论文方法论部分声明
关键结论必须人工复核

try:
    response = requests.get(url, headers=headers, timeout=10)
    response.raise_for_status()
except requests.exceptions.RequestException as e:
    print(f"API 请求失败: {e}")
    # 实现指数退避重试
    time.sleep(min(2**retry_count, 60))

文献分批处理（建议每批 50-100 篇）
多线程并发请求（注意 API 限制）
预处理过滤低相关性文献

from functools import lru_cache
import hashlib

@lru_cache(maxsize=100)
def get_cached_analysis(text):
    text_hash = hashlib.md5(text.encode()).hexdigest()
    cache_file = f"cache/{text_hash}.json"

    if os.path.exists(cache_file):
        with open(cache_file) as f:
            return json.load(f)
    else:
        result = analyze_with_chatgpt(text)
        with open(cache_file, 'w') as f:
            json.dump(result, f)
        return result

使用 Matplotlib 生成趋势图示例：

import matplotlib.pyplot as plt
import pandas as pd

# 假设已有分析结果
methods_by_year = {"2020": {"实验法": 15, "问卷调查": 8},
    "2021": {"实验法": 18, "模拟法": 12},
    "2022": {"机器学习": 25, "实验法": 10}
}

df = pd.DataFrame(methods_by_year).T
plt.figure(figsize=(10,6))
df.plot(kind='bar', stacked=True)
plt.title("研究方法趋势变化")
plt.ylabel("文献数量")
plt.savefig('method_trends.png')