中科院ChatGPT网页版技术解析：从架构设计到API安全实践

17次阅读

共计 2227 个字符，预计需要花费 6 分钟才能阅读完成。

大模型服务网页化面临三个关键技术挑战：长文本处理导致的响应延迟显著增加，Token 计费需要精确到字符级别的统计，以及高并发场景下 GPU 资源的动态分配效率。这些挑战直接影响用户体验和运营成本。

我们针对三种主流 Python 框架进行压测（4 核 CPU/16GB 内存环境，模拟 100 并发请求）：

Flask：平均响应时间 320ms，QPS 稳定在 280 左右，内存占用 1.2GB
Django：平均响应时间 290ms，QPS 约 310，但启动时间长达 8 秒
FastAPI：平均响应时间 210ms，QPS 突破 450，支持自动 OpenAPI 文档生成

测试表明 FastAPI 的异步特性更适合 LLM 服务，以下关键实现均基于 FastAPI 构建。

@app.websocket("/ws/chat")
async def chat_stream(websocket: WebSocket):
    await websocket.accept()
    tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b")

    try:
        while True:
            # 接收用户输入
            user_input = await websocket.receive_text()

            # 流式生成响应
            for chunk in model.stream_generate(inputs=tokenizer(user_input, return_tensors="pt"),
                max_new_tokens=512,
                do_sample=True,
                temperature=0.7
            ):
                # 实时发送部分结果
                await websocket.send_text(tokenizer.decode(chunk[0], skip_special_tokens=True)
                )
    except WebSocketDisconnect:
        logging.info("Client disconnected")

关键优化点：
– 使用 stream_generate 替代完整生成再返回
– 每个 Token 生成后立即推送前端
– 异常断开时自动回收 GPU 资源

采用三层防护策略：

JWT 鉴权：

# 签发 Token 时加入设备指纹
def create_access_token(data: dict):
    to_encode = data.copy()
    to_encode.update({"fingerprint": hashlib.md5(request.headers.get("User-Agent").encode()).hexdigest()})
    return jwt.encode(to_encode, SECRET_KEY, algorithm=ALGORITHM)

动态速率限制：

# 根据用户等级动态调整
@lru_cache(maxsize=1000)
def get_rate_limit(user_level: str) -> tuple:
    return {"free": (10, 60),   # 10 次 / 分钟
        "vip": (30, 60),
        "enterprise": (100, 60)
    }.get(user_level, (5, 60))

请求内容校验：

@app.middleware("http")
async def validate_request(request: Request, call_next):
    if len(request.url.query) > 200:  # 防止超长 URL 攻击
        raise HTTPException(status_code=400)
    return await call_next(request)

采用混合调度策略：

首次请求根据 GPU 显存余量选择节点
长对话会话保持相同计算节点
心跳检测自动剔除异常节点

def select_best_node():
    nodes = sorted(
        HEALTHY_NODES,
        key=lambda x: (x["gpu_mem_free"], 
            -x["active_sessions"]
        ),
        reverse=True
    )
    return nodes[0]["url"]

# 每 5 分钟记录显存变化
watch -n 300 nvidia-smi --query-gpu=memory.used --format=csv

# 使用会话 ID 隔离上下文
class ConversationManager:
    def __init__(self):
        self.sessions = {}

    def get_history(self, session_id: str):
        return self.sessions.setdefault(session_id, [])

# AC 自动机实现高效匹配
with open("sensitive_words.txt") as f:
    trie = ahocorasick.Automaton()
    for word in f.readlines():
        trie.add_word(word.strip(), True)
    trie.make_automaton()