开放世界长周期任务中的技能强化学习与规划：从理论到工程实践

2次阅读

共计 2163 个字符，预计需要花费 6 分钟才能阅读完成。

在开放世界长周期任务中，传统强化学习方法面临三个核心挑战：

样本效率低下：稀疏奖励环境下，随机探索需要数百万次与环境交互。例如在家庭服务机器人任务中，学习 ” 整理房间 ” 可能需要数周真实训练
信用分配难题：跨越数百步的动作序列中，难以确定哪个子决策应对最终结果负责。就像玩《我的世界》时，无法判断是 ” 砍树 ” 还是 ” 合成工作台 ” 的步骤导致任务失败
规划复杂度爆炸：状态空间随任务时长指数增长。在自动驾驶场景中，从 A 点到 B 点的可能状态路径比宇宙原子总数还多

通过选项框架 (Option Framework) 实现时序抽象：

class SkillNetwork(nn.Module):
    def __init__(self, obs_dim, skill_dim):
        super().__init__()
        self.termination = nn.Sequential(nn.Linear(obs_dim, 32),
            nn.ReLU(),
            nn.Linear(32, 1),
            nn.Sigmoid())
        self.policy = nn.Sequential(nn.Linear(obs_dim + skill_dim, 64),
            nn.ReLU(),
            nn.Linear(64, action_dim))

    def forward(self, obs, skill):
        # 技能策略生成底层动作
        return self.policy(torch.cat([obs, skill], dim=-1))

关键设计原则：

高层策略每 10-100 个时间步选择技能
每个技能对应一个终止条件预测器
技能空间维度通常比原始动作空间低 1 - 2 个数量级

结合神经网络的感知能力与符号系统的推理优势：

符号接地(Symbol Grounding)：使用目标检测器将像素映射到物体符号（如 ” 杯子 =obj_12″）
PDDL 规划器：将抽象目标转化为技能序列

def symbolic_planner(current_state, goal):
    # 当前状态：{'cup': 'table', 'hand': 'empty'}
    # 目标：{'cup': 'cabinet'}
    plan = []
    if current_state['hand'] != 'empty':
        plan.append('release_object')
    plan += ['grasp_cup', 'move_to_cabinet', 'place_cup']
    return plan  # 返回技能序列

使用世界模型预测技能执行后果：

class WorldModel(nn.Module):
    def __init__(self, obs_dim, action_dim):
        super().__init__()
        self.transition = nn.LSTM(obs_dim + action_dim, hidden_dim)
        self.reward_pred = nn.Linear(hidden_dim, 1)

    def rollout(self, skill, steps=10):
        # 预测技能执行后的状态变化
        states, rewards = [], []
        for _ in range(steps):
            next_state = self.transition(current_state, skill)
            states.append(next_state)
            rewards.append(self.reward_pred(next_state))
        return torch.stack(states), torch.stack(rewards)

分层预训练阶段：
底层技能：在短周期任务（如抓取单个物体）上训练
高层策略：固定技能网络训练选项选择
世界模型：收集随机交互数据训练
联合微调阶段：
每迭代 1000 步更新技能终止条件
规划器生成的技能序列作为高层策略的专家示范

技能复用加速：在新任务中冻结底层技能网络，仅训练高层策略
优先级经验回放：对导致状态突变的 transition 给予更高采样权重
符号缓存：对稳定物体（如墙壁）的符号检测结果进行缓存

错误做法：

# 简单的时间差分信用分配
reward = final_reward / episode_length

正确方案：

# 基于技能持续时间的分段奖励
for i, skill in enumerate(episode_skills):
    skill_duration = skill.end_step - skill.start_step
    skill.reward = final_reward * (skill_duration / total_steps) * skill.specificity