基于Jenkins Pipeline实现skill自动跑仿真的工程实践

5次阅读

共计 2235 个字符，预计需要花费 6 分钟才能阅读完成。

在芯片验证流程中，Skill 脚本仿真是验证环节的重要组成部分。但传统手动运行方式存在明显效率瓶颈：

时间成本高：工程师平均每天需要手动触发 3 - 4 次仿真任务，每次操作耗时约 15 分钟
结果整理繁琐：仿真报告的手动整理和关键指标提取占用了 30% 以上的验证时间
环境依赖强：仿真环境搭建复杂，不同工程师的本地环境差异常导致结果不一致
资源利用低：夜间和周末的计算资源经常处于闲置状态

方案	优点	缺点	适用场景
Jenkins Pipeline	可视化调度、完善的插件生态、支持分布式执行	需要维护 Jenkins 服务	大中型团队，复杂验证环境
Cron	简单易用、系统原生支持	缺乏任务监控、错误处理能力弱	简单定时任务
自研调度系统	完全定制化	开发维护成本高	超大规模验证团队

# Dockerfile for Cadence 仿真环境
FROM centos:7

# 基础工具链
RUN yum install -y tcl tk libXext libXrender

# 安装 Cadence 工具链
COPY cadence_installer.tar.gz /tmp/
RUN tar -xzf /tmp/cadence_installer.tar.gz && \
    cd /tmp/installer && \
    ./install -f silent.cfg

# 设置环境变量
ENV CDS_HOME=/opt/cadence
ENV PATH=$CDS_HOME/tools/bin:$PATH

# 工作目录
WORKDIR /workspace

// Jenkinsfile with retry mechanism
pipeline {
    agent {
        docker {
            image 'cadence-sim-env:1.2'
            args '-v /nfs:/nfs'
        }
    }

    stages {stage('Prepare') {
            steps {
                sh 'mkdir -p reports'
                checkout scm
            }
        }

        stage('Run Simulation') {
            steps {retry(3) {sh 'skill run_sim.tcl > sim.log'}
            }
        }

        stage('Analyze') {
            steps {python3 analyze.py sim.log}
        }
    }

    post {
        always {archiveArtifacts artifacts: 'reports/**'}
    }
}

# analyze.py
import re
import json

def parse_log(log_file):
    metrics = {
        'total_errors': 0,
        'coverage': 0.0,
        'waivers': []  # 异常豁免}

    with open(log_file) as f:
        for line in f:
            # 匹配错误计数
            if match := re.search(r'ERRORS: (\d+)', line):
                metrics['total_errors'] = int(match.group(1))

            # 匹配覆盖率
            elif match := re.search(r'COVERAGE: (\d+\.\d+)%', line):
                metrics['coverage'] = float(match.group(1))

            # 捕获豁免项
            elif 'WAIVER' in line:
                metrics['waivers'].append(line.strip())

    # 生成报告
    with open('reports/summary.json', 'w') as f:
        json.dump(metrics, f, indent=2)

if __name__ == '__main__':
    import sys
    parse_log(sys.argv[1])

分层存储策略：将频繁访问的中间文件放在本地 SSD，最终结果归档到 NAS
缓存机制：使用 rsync 增量同步代替直接写入共享存储
文件分组：将大量小文件打包成 tar 归档减少元数据操作

# cgroups 配置示例
# 创建 CPU 限制组
cgcreate -g cpu:/jenkins_sim

# 限制 CPU 使用率为 50%
cgset -r cpu.cfs_period_us=100000 jenkins_sim
cgset -r cpu.cfs_quota_us=50000 jenkins_sim

# 启动任务时应用限制
cgexec -g cpu:jenkins_sim skill run_sim.tcl

在 Docker 容器内显式设置 PATH 等关键环境变量
在 Jenkins Job 中清空不必要的环境变量
使用 env -i 启动关键进程

// Pipeline 中添加心跳检测
def heartbeat() {while(true) {
        sh 'touch /tmp/heartbeat'
        sleep(time: 5, unit: 'MINUTES')
    }
}

stage('Long Running') {
    steps {
        script {
            parallel("simulation": { sh 'skill long_run.tcl'},
                "monitor": {heartbeat() }
            )
        }
    }
}

当前系统已经实现了仿真任务的自动化执行，但如何进一步利用这些数据提升验证质量？可以考虑：