Ollama与Claude Code实战：本地大模型开发环境搭建指南

2次阅读

共计 1555 个字符，预计需要花费 4 分钟才能阅读完成。

开发调试更高效：本地运行可以实时观察模型中间输出，快速验证 prompt 工程效果
数据隐私有保障：敏感数据无需上传第三方 API，避免商业信息泄露风险
成本可控性更强：长期使用比按次调用的云服务更经济，尤其对高频调用场景

开箱即用：提供预编译二进制文件，5 分钟完成基础部署
资源占用优化：自动处理模型分片加载，支持部分量化部署（如 4 -bit 量化）
跨平台支持：同一套 API 可在不同操作系统运行

直接调用云 API
优点：零部署成本
缺点：延迟不可控，存在隐私合规风险
自建 K8s 集群
优点：适合企业级多模型管理
缺点：运维复杂度高，需要专业团队支持

Linux:

curl -fsSL https://ollama.com/install.sh | sh

Mac（Homebrew 安装）:

brew install ollama

Windows（PowerShell 管理员模式）:

winget install Ollama.Ollama

ollama pull claude-code:7b-v1.5

ollama run --num-gpu 1 --low-vram claude-code

关键参数说明：

--num-gpu：指定使用的 GPU 数量
--low-vram：启用显存优化模式
--num-threads：控制 CPU 核心利用率

import requests

try:
    response = requests.post(
        'http://localhost:11434/api/generate',
        json={
            'model': 'claude-code',
            'prompt': '用 Python 实现快速排序',
            'stream': False
        },
        timeout=30
    )
    response.raise_for_status()
    print(response.json()['response'])
except requests.exceptions.RequestException as e:
    print(f"API 调用失败: {e}")

FROM ubuntu:22.04

RUN apt-get update && \
    apt-get install -y curl && \
    curl -fsSL https://ollama.com/install.sh | sh

EXPOSE 11434
CMD ["ollama", "serve"]

构建命令：

docker build -t ollama-claude .

现象：API 返回 Model not found 错误
解决：使用 ollama list 确认本地模型版本，保持 client 与 server 版本一致

显存不足 ：添加--low-vram 参数
内存不足 ：调整--num-threads 减少并行度
量化模型 ：选用-4bit 后缀的量化版本

# 启用认证
ollama serve --auth username:password

# 客户端调用时添加 Header
headers = {'Authorization': 'Basic dXNlcm5hbWU6cGFzc3dvcmQ='}

如何实现不中断服务的模型热更新？
多模型并行推理时如何做 token 限流？
本地微调后的模型如何与原始版本共存？

经过两周的实际使用，Ollama 在 M1 MacBook Pro 上运行 7B 参数的 Claude Code 模型表现稳定。通过 --num-gpu 参数可以灵活调整 GPU 负载，日常开发时设置为 1 个 GPU 核心即可流畅运行。建议首次使用时先加载小参数模型测试硬件兼容性，再逐步尝试更大规模的模型。

正文完