Claude Code教学：从零构建AI助手的完整开发指南

1次阅读

共计 2386 个字符，预计需要花费 6 分钟才能阅读完成。

在初次接触 Claude API 时，开发者经常会遇到以下几个典型问题：

对话上下文丢失 ：在多轮对话中，由于没有正确维护messages 数组，导致 AI 助手无法理解前后语境
流式响应拼接错误 ：处理 WebSocket 分块响应时，忽略"stop_reason":"stop_sequence" 等关键字段，造成回复不完整
突发流量导致服务中断：未实现请求限流和重试机制，遭遇 API 的速率限制（rate limiting）时直接崩溃
计费不可控 ：没有合理设置max_tokens 参数，导致长文本生成产生意外高额费用

维度	REST API	WebSocket
延迟	较高（每次握手）	低（持久连接）
吞吐量	适合低频请求	支持高并发流式响应
成本	简单场景更经济	长对话场景更高效
适用场景	简单问答	实时交互 / 长文本生成

from typing import List, Dict, Optional
import requests
from tenacity import retry, stop_after_attempt, wait_exponential

class ClaudeAPI:
    def __init__(self, api_key: str):
        self.base_url = "https://api.anthropic.com/v1"
        self.headers = {
            "x-api-key": api_key,
            "anthropic-version": "2023-06-01",
            "content-type": "application/json"
        }

    @retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
    def send_message(
        self,
        messages: List[Dict[str, str]],
        model: str = "claude-3-opus-20240229",
        max_tokens: int = 1024,
        temperature: float = 0.7
    ) -> Dict:
        """
        :param messages: 消息历史数组，格式示例：[{"role": "user", "content": "你好"},
                {"role": "assistant", "content": "你好！有什么可以帮您？"}
            ]
        :param model: 模型版本（temperature 参数控制创造性）:param max_tokens: 最大生成 token 数（直接影响计费）"""
        try:
            data = {
                "model": model,
                "messages": messages,
                "max_tokens": max_tokens,
                "temperature": temperature
            }
            response = requests.post(f"{self.base_url}/messages",
                headers=self.headers,
                json=data
            )
            response.raise_for_status()
            return response.json()
        except requests.exceptions.HTTPError as err:
            if response.status_code == 429:  # 速率限制
                retry_after = int(response.headers.get('Retry-After', 60))
                raise Exception(f"Rate limited. Retry after {retry_after} seconds")
            raise

messages 数组规范：
必须严格保持 user 和assistant交替的顺序
每个消息对象必须包含 role 和content字段
建议对话轮次不超过 20 轮（避免超过模型上下文窗口）
上下文压缩技巧：
对历史对话进行摘要（可使用 Claude 自身生成摘要）
当 token 计数超过阈值时，移除最早的非关键对话

max_tokens 动态计算：

# 根据输入长度自动调整 max_tokens
input_tokens = estimate_token_count(user_input)
max_tokens = min(4096 - input_tokens, 1024)  # 保证总数不超过模型限制

Redis 对话存储实现：

import redis
from datetime import timedelta

r = redis.Redis(host='localhost', port=6379, db=0)

def save_conversation(session_id: str, messages: list):
    # 设置 30 分钟过期时间
    r.setex(f"claude:{session_id}", timedelta(minutes=30), json.dumps(messages))

建议采用指数退避算法：

首次重试等待 1 秒
第二次等待 2 秒
第三次等待 4 秒（以此类推）
最大等待时间不超过 60 秒

使用正则表达式过滤危险输入：

import re

def sanitize_input(text: str) -> str:
    # 过滤系统指令尝试
    pattern = r"(?:\n|^)\s*(/?system|/help|/exit)"
    return re.sub(pattern, "", text, flags=re.IGNORECASE)

当对话历史超过模型上下文窗口（如 Claude- 3 的 200K tokens）时，如何设计智能压缩算法？考虑：