Zotero 7与ChatGPT插件深度整合：打造智能文献管理流水线

8次阅读

共计 2259 个字符，预计需要花费 6 分钟才能阅读完成。

每次开组会前，我都得花整个周末整理文献——手动标注关键词、写摘要、做分类。直到发现 Zotero 7 的插件系统可以和 ChatGPT 联动，才意识到传统文献管理工具的三个致命伤：

标注效率黑洞：给 200 篇文献打标签需要 6 小时，而 AI 只需 20 分钟
知识关联断裂：PDF 里的重要结论就像孤岛，无法自动关联相似研究
更新维护滞后：手动维护的文献库永远比最新研究慢半拍

最近 Nature 调查显示，科研人员平均浪费 34% 时间在文献整理上。这就是为什么我们要把 Zotero 变成会思考的文献助手。

想象有个懂科研的秘书在 Zotero 里工作，这是我们的系统架构：

flowchart LR
    A[Zotero 库] -->B[插件监听新增文献]
    B -->C{文献类型?}
    C -->|PDF/ 网页 | D[提取元数据 + 全文]
    C -->|DOI/PMID| E[调用 Crossref/PubMed]
    D/E --> F[构建 JSON-LD 数据包]
    F --> G[ChatGPT API 处理]
    G --> H[结构化存储回 Zotero]

两个关键技术节点：

安全认证：用 OAuth2.0 的 client_credentials 模式获取 API 令牌，避免每次输入密钥
流式处理：对于长篇文献，采用 chunked encoding 分片传输，防止超时中断

这才是真正解放双手的部分，我们来看关键代码模块：

import aiohttp
from tenacity import retry, stop_after_attempt

@retry(stop=stop_after_attempt(3))
async def query_gpt(text_chunk: str) -> dict:
    headers = {'Authorization': f'Bearer {API_KEY}',
        'Content-Type': 'application/json'
    }
    payload = {
        "model": "gpt-4-1106-preview",
        "messages": [{"role": "user", "content": build_prompt(text_chunk)}],
        "temperature": 0.3  # 降低创造性，提高事实性
    }

    async with aiohttp.ClientSession() as session:
        async with session.post(API_ENDPOINT, json=payload, headers=headers) as resp:
            if resp.status == 429:
                await asyncio.sleep(float(resp.headers.get('Retry-After', 5)))
                raise Exception("Rate limited")
            return await resp.json()

def build_prompt(text: str) -> str:
    return f""" 你是一位严谨的科研助理，请按以下要求处理文献：1. [必须]用原文词汇概括核心结论
    2. [禁止]添加原文不存在的信息
    3. [必须]标记存在争议的统计方法
    4. [格式]输出 JSON 包含：summary,keywords,related_studies

    待处理文本：{text}"""

import pytest

@pytest.mark.asyncio
async def test_query_gpt():
    test_text = "本研究通过 RCT 发现药物 A 疗效优于安慰剂(p<0.01)"
    result = await query_gpt(test_text)
    assert 'summary' in result
    assert 'p<0.01' in result['summary']  # 验证数值保留

在实验室服务器部署时，我们踩过这些坑：