Python SDK

Crawlab 的 Python SDK 主要由 2 部分构成:

  1. CLI 命令行工具
  2. Utility 工具

CLI 命令行工具

CLI 命令行工具主要是为比较习惯用命令行的开发者设计的,他们可以利用这个命令行工具与 Crawlab 进行交互。

CLI 命令行工具的安装很简单:

  1. pip install crawlab-sdk

然后,您就可以用 crawlab 这个命令在命令行中与 Crawlab 交互了。

可以利用下方命令来查找帮助,或者您可以参考 CLI 章节

  1. crawlab --help

Utility 工具

Utility 工具主要提供一些 Helper 方法来让您的爬虫更好的集成到 Crawlab 中,例如保存结果数据到 Crawlab 中等等。

下面介绍 Scrapy 和一般 Python 爬虫与 Crawlab 集成的方式。

⚠️注意:请确保您已经通过 pip 安装了 crawlab-sdk

Scrapy 集成

settings.py 中找到 ITEM_PIPELINESdict 类型的变量),在其中添加如下内容。

  1. ITEM_PIPELINES = {
  2. 'crawlab.pipelines.CrawlabMongoPipeline': 888,
  3. }

然后,启动 Scrapy 爬虫,运行完成之后,您就应该能看到抓取结果出现在 任务详情-结果 里。

通用 Python 爬虫集成

将下列代码加入到您爬虫中的结果保存部分。

  1. # 引入保存结果方法
  2. from crawlab import save_item
  3. # 这是一个结果,需要为 dict 类型
  4. result = {'name': 'crawlab'}
  5. # 调用保存结果方法
  6. save_item(result)

然后,启动爬虫,运行完成之后,您就应该能看到抓取结果出现在 任务详情-结果 里。