从零理解Agent与Skill：智能体开发入门指南

35次阅读

没有评论

共计 1887 个字符，预计需要花费 5 分钟才能阅读完成。

想象你要组装一台多功能机器人。Agent就是机器人的 ” 大脑 ”，负责统筹决策；而 Skill 则是它的 ” 手 ” 和 ” 工具包 ”，每个工具只专注一件事。比如：

『天气查询 Skill』：只负责调用 API 返回天气数据
『旅行规划 Agent』：会组合调用天气查询、地图导航、酒店比价等多个 Skill

传统编程像瑞士军刀，所有功能写在一起；Agent-Skill 架构则像乐高积木，通过组合简单模块实现复杂功能。

用一个订餐场景对比两种架构：

单体应用

用户 → 下单接口 → 查库存 → 计算优惠 → 支付 → 通知厨房

牵一发动全身，新增功能需修改主流程

Agent-Skill 架构

graph LR
 用户 --> Agent
  Agent -->| 显式调用 | 库存 Skill
  Agent -->| 隐式调用 | 优惠 Skill
  Agent --> 支付 Skill

各 Skill 独立升级，Agent 通过 意图识别 动态组合

下面用 Python 实现一个基础对话 Agent（需 Python 3.8+）：

from typing import Dict, Callable, Any
import asyncio

class Skill:
    """技能基类"""
    async def execute(self, input: str) -> str:
        raise NotImplementedError

class TimeSkill(Skill):
    async def execute(self, _: str) -> str:
        from datetime import datetime
        return f"当前时间: {datetime.now().strftime('%H:%M')}"

class CalculatorSkill(Skill):
    async def execute(self, input: str) -> str:
        try:
            return str(eval(input))
        except Exception as e:
            return f"计算错误: {e}"

class Agent:
    def __init__(self):
        self.skills: Dict[str, Skill] = {}

    def register_skill(self, name: str, skill: Skill):
        self.skills[name] = skill

    async def handle_message(self, input: str) -> str:
        # 简单意图识别
        if "几点" in input:
            return await self.skills["time"].execute(input)
        elif any(op in input for op in "+-*/"):
            return await self.skills["calc"].execute(input)
        else:
            return "抱歉，我不明白您的意思"

# 使用示例
async def main():
    agent = Agent()
    agent.register_skill("time", TimeSkill())
    agent.register_skill("calc", CalculatorSkill())

    while True:
        query = input("您:")
        if query == "exit":
            break
        print("Agent:", await agent.handle_message(query))

if __name__ == "__main__":
    asyncio.run(main())

关键设计点：