中科院ChatGPT网页版部署实战：从零搭建到性能调优

12次阅读

没有评论

共计 2299 个字符，预计需要花费 6 分钟才能阅读完成。

科研机构在部署大模型网页服务时，往往会遇到一些特殊需求，这些需求在商业场景中可能并不常见，但对于学术环境却至关重要。

学术合规性 ：科研机构对数据安全和隐私保护有严格的要求，特别是在处理敏感学术数据时。
访问控制 ：需要精细化的权限管理，确保只有授权人员可以访问特定功能或数据。
计算资源限制 ：相比商业公司，科研机构的计算资源通常有限，如何在有限的 GPU 资源下高效运行大模型成为一大挑战。
高并发需求 ：尽管资源有限，但在特定时期（如学术会议前后）可能会有突发的高并发请求。

这些痛点使得科研机构在部署类 ChatGPT 应用时需要更加谨慎地选择技术方案和优化策略。

在模型服务化的框架选择上，我们对比了 Flask、Django 和 FastAPI：

Flask：轻量级，灵活，但缺乏原生的异步支持，不适合高并发场景。
Django：功能全面，但过于笨重，且对异步支持较晚。
FastAPI：基于 Starlette 和 Pydantic，原生支持异步，性能优异，适合高并发场景。

结合前端技术栈，我们选择了 FastAPI+React 的组合：

FastAPI：提供高性能的后端服务，支持异步处理，适合大模型推理。
React：灵活的前端框架，便于构建复杂的交互界面，且社区生态丰富。

ONNX Runtime 是一个高性能的推理引擎，支持模型量化，可以显著减少模型大小和推理延迟。以下是 Python 代码示例：

import onnxruntime as ort

def load_onnx_model(model_path: str) -> ort.InferenceSession:
    try:
        session = ort.InferenceSession(model_path, providers=['CUDAExecutionProvider'])
        return session
    except Exception as e:
        print(f"Failed to load ONNX model: {e}")
        raise

# 量化模型推理
def infer(session: ort.InferenceSession, input_data: dict) -> str:
    try:
        outputs = session.run(None, input_data)
        return outputs[0]
    except Exception as e:
        print(f"Inference failed: {e}")
        raise

使用 JWT（JSON Web Token）实现无状态认证，结合 RBAC（Role-Based Access Control）进行权限管理。前端 React 代码示例：

import axios from 'axios';
import {useEffect} from 'react';

const useAuthInterceptor = () => {useEffect(() => {
    const interceptor = axios.interceptors.request.use(config => {const token = localStorage.getItem('token');
      if (token) {config.headers.Authorization = `Bearer ${token}`;
      }
      return config;
    });
    return () => {axios.interceptors.request.eject(interceptor);
    };
  }, []);
};

对于长文本生成任务，使用 Celery 进行异步处理，避免阻塞主线程：

from celery import Celery

app = Celery('tasks', broker='redis://localhost:6379/0')

@app.task(bind=True)
def generate_long_text(self, prompt: str) -> str:
    try:
        # 模拟长文本生成
        result = ""
        for i in range(10):
            result += f"Generated text part {i}\n"
            self.update_state(state='PROGRESS', meta={'current': i, 'total': 10})
        return result
    except Exception as e:
        self.retry(exc=e, countdown=60)

Locust 是一个开源的负载测试工具，我们使用它模拟高并发请求，发现以下优化点：