技能图谱构建实战：如何利用开源工具打造免费技能大全系统

3次阅读

共计 2315 个字符，预计需要花费 6 分钟才能阅读完成。

在构建技能管理系统时，开发者常常面临三大核心问题：

数据分散 ：技能数据散落在招聘网站、技术博客、课程平台等不同来源，手动收集效率极低
分类困难 ：技能名称存在同义词（如 ”Python” 和 ”Python 编程 ”）、多义词（如 ”Java” 可能指语言或岛屿）现象
可视化缺失 ：传统列表形式无法直观展示技能间的关联关系（如 ”React” 通常与 ”JavaScript” 共同出现）

Scrapy 优势 ：
内置异步处理引擎，爬取效率比 BeautifulSoup 高 3 - 5 倍
自带中间件支持自动处理 Cookies/Headers
项目结构标准化，适合长期维护
BeautifulSoup 适用场景 ：
快速抓取少量静态页面
学习曲线更平缓

最终选择 Scrapy 作为核心爬虫框架，典型爬虫启动代码如下：

import scrapy

class SkillSpider(scrapy.Spider):
    name = 'skill_crawler'

    def start_requests(self):
        urls = ['https://example.com/jobs?page=1']
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        # 使用 XPath 提取技能关键词
        skills = response.xpath('//div[@class="job-desc"]//text()').getall()
        yield {'skills': skills}

数据准备 ：构建包含 5 万条已标注技能的数据集，标签体系分为：编程语言、框架、工具等 12 个类别
关键实现代码 ：

from transformers import BertTokenizer, BertForSequenceClassification

# 加载预训练模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForSequenceClassification.from_pretrained(
    'bert-base-uncased', 
    num_labels=12
)

# 微调训练
for epoch in range(3):
    for batch in train_loader:
        inputs = tokenizer(batch['text'], padding=True, return_tensors="pt")
        outputs = model(**inputs, labels=batch['label'])
        loss = outputs.loss
        loss.backward()
        optimizer.step()

处理后的技能关系数据格式示例：

{
  "nodes": [{"id": "Python", "group": 1},
    {"id": "Django", "group": 2}
  ],
  "links": [{"source": "Python", "target": "Django", "value": 0.8}
  ]
}

核心力导向图实现代码：

const simulation = d3.forceSimulation(nodes)
    .force("link", d3.forceLink(links).id(d => d.id))
    .force("charge", d3.forceManyBody().strength(-30))
    .force("x", d3.forceX())
    .force("y", d3.forceY());

使用 Scrapy-Redis 实现分布式任务队列
部署 3 个爬虫节点 + 1 个 Redis 中心节点
增加 IP 代理中间件实现每秒 5 次请求

使用 FastAPI 构建服务
通过 uvicorn 启动 10 个 worker 进程
实测 QPS 达到 120 次 / 秒

@app.post("/classify")
async def classify_skill(text: str):
    inputs = tokenizer(text, return_tensors="pt")
    outputs = model(**inputs)
    return {"category": LABELS[outputs.logits.argmax()]}