Zotero与ChatGPT协同：自动化文献综述提示词设计与实践

20次阅读

没有评论

共计 2888 个字符，预计需要花费 8 分钟才能阅读完成。

文献综述是科研工作中不可或缺的一环，但传统方式存在几个明显痛点：

手动整理文献耗时费力，尤其是当需要处理数十甚至上百篇文献时
不同文献的关键信息分散，难以快速提取和归纳
综述写作重复性高，容易陷入模板化
跨领域研究需要整合不同学科的文献，人工分类效率低下

这些问题催生了自动化文献综述的需求。通过工具协同，可以实现：

文献元数据的自动提取和结构化
关键信息的智能归纳
综述初稿的自动生成
文献间的关联分析

在众多文献管理工具中，Zotero 因其开放性和 API 友好性脱颖而出：

完全开源，社区支持完善
提供丰富的 JavaScript API 和 REST API
支持多种数据导出格式（BibTeX, RIS, CSV 等）
可扩展性强，有大量插件生态

相比之下，EndNote 等商业软件 API 限制较多，而 Mendeley 在被 Elsevier 收购后 API 稳定性受到影响。

ChatGPT 则因其：

强大的自然语言理解和生成能力
可定制的 prompt 工程
对结构化数据的处理能力

成为理想的文献分析搭档。

Zotero 支持通过以下方式获取文献数据：

通过 GUI 导出 BibTeX 或 RIS 格式
通过 Zotero API 获取 JSON 格式数据
使用 Pyzotero 库直接访问本地 Zotero 数据库

推荐使用 JSON 格式，因为它保留了最完整的元数据字段。典型数据结构包含：

{
  "itemType": "journalArticle",
  "title": "Deep Learning for Computer Vision",
  "creators": [{"firstName": "John", "lastName": "Doe"}],
  "abstractNote": "...",
  "publicationTitle": "Journal of AI",
  "date": "2022",
  "tags": [{"tag": "computer vision"}],
  "DOI": "..."
}

有效的文献综述提示词应遵循以下原则：

明确任务目标（总结 / 比较 / 批判性分析）
结构化输入数据（作者 + 年份 + 标题 + 摘要）
指定输出格式（Markdown/ 分级标题等）
包含领域特定要求（如医学文献需要 evidence 等级）

基础模板：

 请基于以下文献信息，生成一份结构化文献综述。要求：1. 按主题分类归纳
2. 每类包含 3 - 5 个关键发现
3. 比较不同研究的异同
4. 指出研究空白

文献数据：[作者 1 ( 年份 1)] 标题 1
摘要：...

[作者 2 ( 年份 2)] 标题 2
摘要：...

完整处理流程：

从 Zotero 导出文献数据（JSON/BibTeX）
数据清洗（去重、补全缺失字段）
按自定义规则分类（主题 / 方法 / 时间）
构造 ChatGPT 提示词
调用 API 获取综述草稿
人工校验和润色

以下是一个完整的工作示例：

import json
from openai import OpenAI

# 1. 加载 Zotero 导出的 JSON 数据
def load_zotero_data(filepath):
    with open(filepath, 'r', encoding='utf-8') as f:
        return json.load(f)

# 2. 数据预处理
def preprocess_items(items):
    processed = []
    for item in items:
        # 提取核心字段
        entry = {'authors': ','.join([f"{c['lastName']} {c['firstName']}" for c in item.get('creators', [])]),
            'year': item.get('date', '')[:4],'title': item.get('title',''),
            'abstract': item.get('abstractNote', '')
        }
        processed.append(entry)
    return processed

# 3. 构造提示词
def build_prompt(items):
    literature_input = '\n\n'.join(f"[{item['authors']} ({item['year']})] {item['title']}\n"
        f"摘要：{item['abstract']}"
        for item in items
    )

    return f""" 请基于以下文献生成综述，要求：1. 按机器学习方法分类
2. 每类总结关键贡献
3. 指出方法局限
4. 建议未来方向

文献列表：{literature_input}"""

# 4. 调用 ChatGPT
def generate_review(prompt):
    client = OpenAI(api_key="your_api_key")
    response = client.chat.completions.create(
        model="gpt-4",
        messages=[{"role": "user", "content": prompt}],
        temperature=0.3  # 降低随机性
    )
    return response.choices[0].message.content

# 主流程
if __name__ == "__main__":
    zotero_data = load_zotero_data("zotero_export.json")
    processed_items = preprocess_items(zotero_data)
    prompt = build_prompt(processed_items[:10])  # 先处理前 10 篇
    review = generate_review(prompt)
    print(review)

处理大量文献时建议：