Baidu-Search Skill深度解析：如何为国内用户构建高效的OpenClaw联网搜索功能

13次阅读

没有评论

共计 2454 个字符，预计需要花费 7 分钟才能阅读完成。

作为开发者，我们经常需要为国内用户提供联网搜索功能。但直接使用通用搜索引擎（如 Google）会遇到几个典型问题：

语言障碍：英文结果占比过高，即使搜索中文关键词也常返回英文内容
结果相关性差：国际搜索引擎对中文网页的收录和排序算法不够本土化
访问稳定性：部分国际服务在国内访问时断时续
合规风险：未经处理的搜索结果可能包含敏感内容

优点：完全控制抓取逻辑，无需依赖第三方 API
缺点：
开发维护成本高（反爬虫对抗、页面解析适配）
法律风险（可能违反网站 Robots 协议）
稳定性差（页面结构变更导致解析失败）

优点：
官方支持，稳定合规
原生中文支持，结果经过安全过滤
开发效率高（标准 REST API）
缺点：
有调用配额限制
需要开发者账号

访问百度开发者中心
注册账号并完成实名认证
在控制台创建 ” 网页搜索 ” 应用
获取 API Key 和 Secret Key

百度搜索 API 使用签名认证，主要步骤：

构造参数字符串（参数按字母序排序）
拼接完整请求字符串（URI + 参数字符串 + Secret Key）
计算 MD5 值并转为小写

关键 Python 实现：

import hashlib
import urllib.parse

def generate_signature(params, secret_key):
    # 参数按 key 排序
    sorted_params = sorted(params.items(), key=lambda x: x[0])

    # 构造参数字符串
    query_string = urllib.parse.urlencode(sorted_params)

    # 计算签名
    sign_string = query_string + secret_key
    return hashlib.md5(sign_string.encode()).hexdigest()

百度 API 返回的 JSON 包含多个维度的信息，建议处理：

提取核心字段（title, url, abstract）
过滤广告结果（通常有特殊的标记字段）
按相关性排序（结合 baidu 权重和自定义规则）

import requests
import time
from typing import List, Dict

class BaiduSearch:
    def __init__(self, api_key: str, secret_key: str):
        self.api_key = api_key
        self.secret_key = secret_key
        self.endpoint = "http://api.baidu.com/json/tongji/v1/WebSearch"

    def search(self, query: str, max_retry=3) -> List[Dict]:
        """
        执行百度搜索
        :param query: 搜索关键词
        :param max_retry: 最大重试次数
        :return: 搜索结果列表
        """params = {"q": query,"ak": self.api_key,"timestamp": str(int(time.time())),
        }

        # 生成签名
        params["sign"] = generate_signature(params, self.secret_key)

        for attempt in range(max_retry):
            try:
                response = requests.get(
                    self.endpoint, 
                    params=params,
                    timeout=5
                )
                response.raise_for_status()
                return self._parse_results(response.json())
            except Exception as e:
                if attempt == max_retry - 1:
                    raise
                time.sleep(1 * (attempt + 1))

    def _parse_results(self, raw_data: Dict) -> List[Dict]:
        """解析百度 API 返回结果"""
        results = []
        for item in raw_data.get("data", []):
            # 过滤广告结果
            if item.get("is_ad", False):
                continue

            results.append({"title": item.get("title", ""),"url": item.get("url",""),
                "abstract": item.get("abstract", ""),
            })
        return results