使用scrapyd 管理爬虫

scrapyd 是由scrapy 官方提供的爬虫管理工具,使用它我们可以非常方便地上传、控制爬虫并且查看运行日志。

参考官方文档

http://scrapyd.readthedocs.org/en/latest/api.html

使用scrapyd 和我们直接运行

scrapy crawl myspider

有什么区别呢?

scrapyd 同样是通过上面的命令运行爬虫的,不同的是它提供一个JSON web service 监听的请求

我们可以从任何一台可以连接到服务器的电脑发送请求安排爬虫运行,或者停止正在运行的爬虫。

甚至,我们可以使用它提供的API上传新爬虫而不必登录到服务器上进行操作。

安装scrapyd

  1. pip install scrapyd

参考文档:

https://github.com/scrapy/scrapyd-client

运行scrapyd 服务

直接运行命令scrapyd即可:

  1. scrapyd

默认情况下scrapyd 监听 0.0.0.0:6800 端口,运行scrapyd 后在浏览器http://localhost:6800/ 即可查看到当前可以运行的项目:

  • web接口

http://localhost:6800/

使用scrapyd 管理爬虫 - 图1

部署scrapy 项目

直接使用scrapyd-client提供的scrapyd-deploy工具.

  1. pip install scrapyd-client

直接在项目根目录:

修改工程目录下的 scrapy.cfg 文件

  1. [deploy:scrapyd2] #默认情况下并没有scrapyd2,它只是一个名字,可以在配置文件中写多个名字不同的deploy
  2. url = http://scrapyd.mydomain.com/api/scrapyd/ #要部署项目的服务器的地址
  3. username = john #访问服务器所需的用户名和密码(如果不需要密码可以不写)
  4. password = secret

其中的username 和 password 用于在部署时验证服务器的HTTP basic authentication,须要注意的是这里的用户密码并不表示访问该项目须要验证,而是登录服务器用的。

Ubuntu/Windows:

  1. [deploy:tutorial_deploy]
  2. url = http://192.168.17.129:6800/
  3. project = tutorial
  4. username = enlong
  5. password = test

部署项目到服务器

直接在项目根目录:

Windows:

  1. python c:\Python27\Scripts\scrapyd-deploy

使用scrapyd 管理爬虫 - 图2

Ubuntu:

  1. scrapyd-deploy tutorial_deploy -p tutorial

使用scrapyd 管理爬虫 - 图3

部署操作会打包你的当前项目,如果当前项目下有setup.py文件,就会使用它,没有的会就会自动创建一个。

(如果后期项目需要打包的话,可以根据自己的需要修改里面的信息,也可以暂时不管它).

从返回的结果里面,可以看到部署的状态,项目名称,版本号和爬虫个数,以及当前的主机名称.

查看项目spider

通过scrapyd-deploy -l 查看当前目录下的可以使用的部署方式(target)

Windows/Ubuntu

  1. scrapy list
  2. scrapyd-deploy -l

使用scrapyd 管理爬虫 - 图4

或再次打开http://localhost:6800/, 也可以看到Available projects: default, tutorial

列出服务器上所有的项目,检查tutorial_deploy是否已经部署上去了:

  1. scrapyd-deploy -L tutorial_deploy
  2. default
  3. tutorial

API

scrapyd的web界面比较简单,主要用于监控,所有的调度工作全部依靠接口实现.

参考官方文档

http://scrapyd.readthedocs.org/en/stable/api.html

开启爬虫 schedule

curl http://localhost:6800/schedule.json -d project=tutorial -d spider=tencent

Windows/Ubuntu注意:执行时 cd 到项目根目录执行

  1. curl http://localhost:6800/schedule.json -d project=tutorial -d spider=tencent
  2. {"status": "ok", "jobid": "94bd8ce041fd11e6af1a000c2969bafd", "node_name": "ubuntu"}

使用scrapyd 管理爬虫 - 图5

停止 cancel

curl http://localhost:6800/cancel.json -d project=tutorial -d job=94bd8ce041fd11e6af1a000c2969bafd

列出爬虫

curl http://localhost:6800/listspiders.json?project=tutorial

删除项目

curl http://localhost:6800/delproject.json -d project=tutorial

更新

对于scrapyd默认项目(即是启动scrapyd命令后看到的default项目):

只有在scrapy项目里启动scrapyd命令时才有默认项目,默认项目就是当前的scrapy项目

如果在非scrapy项目下执行scrapyd, 是看不到default的

使用scrapyd 管理爬虫 - 图6

使用scrapyd 管理爬虫 - 图7

注意:执行时 cd 到项目根目录执行

第一种情况

cfg:

  1. [deploy]
  2. url = http://192.168.17.129:6800/
  3. project = tutorial
  4. username = enlong
  5. password = test

运行结果:

  1. python@ubuntu:~/project/tutorial$ scrapyd-deploy
  2. Packing version 1471069533
  3. Deploying to project "tutorial" in http://192.168.17.129:6800/addversion.json
  4. Server response (200):
  5. {"status": "ok", "project": "tutorial", "version": "1471069533", "spiders": 1, "node_name": "ubuntu"}

第二种情况

cfg:

  1. [deploy:tutorial_deploy]
  2. url = http://192.168.17.129:6800/
  3. project = tutorial
  4. username = enlong
  5. password = test

运行结果:

  1. python@ubuntu:~/project/tutorial$ scrapyd-deploy tutorial_deploy
  2. Packing version 1471069591
  3. Deploying to project "tutorial" in http://192.168.17.129:6800/addversion.json
  4. Server response (200):
  5. {"status": "ok", "project": "tutorial", "version": "1471069591", "spiders": 1, "node_name": "ubuntu"}