Python SDK

Crawlab 的 Python SDK 主要由 2 部分构成:

CLI 命令行工具主要是为比较习惯用命令行的开发者设计的，他们可以利用这个命令行工具与 Crawlab 进行交互。

CLI 命令行工具的安装很简单：

pip install crawlab-sdk

然后，您就可以用 crawlab 这个命令在命令行中与 Crawlab 交互了。

可以利用下方命令来查找帮助，或者您可以参考 CLI 章节。

crawlab --help

Utility 工具主要提供一些 Helper 方法来让您的爬虫更好的集成到 Crawlab 中，例如保存结果数据到 Crawlab 中等等。

下面介绍 Scrapy 和一般 Python 爬虫与 Crawlab 集成的方式。

⚠️注意：请确保您已经通过 pip 安装了 crawlab-sdk。

在 settings.py 中找到 ITEM_PIPELINES（dict 类型的变量），在其中添加如下内容。

ITEM_PIPELINES = {
    'crawlab.pipelines.CrawlabMongoPipeline': 888,
}

然后，启动 Scrapy 爬虫，运行完成之后，您就应该能看到抓取结果出现在任务详情-结果里。

将下列代码加入到您爬虫中的结果保存部分。

# 引入保存结果方法
from crawlab import save_item
# 这是一个结果，需要为 dict 类型
result = {'name': 'crawlab'}
# 调用保存结果方法
save_item(result)

然后，启动爬虫，运行完成之后，您就应该能看到抓取结果出现在任务详情-结果里。