如何实现多服务器集群爬虫?

很多时候,单机器爬取的效率并不高,对于京东、淘宝这种动则上千万页面的网站,真的会爬到天荒地老,如何快速爬取成了当今爬虫最难的课题,要说破解防盗页面以及内容正则匹配提取,真的是特别的小儿科。现在PHPSpider框架自带了集群功能,可以让初学者很轻易的在多台机器上运行同一分代码实现多机器爬取。

下面我们看看运行多任务爬虫所需要的代码

  1. $configs = array(
  2. 'name' => '糗事百科测试样例',
  3. 'multiserver' => true, // 是否启动集群爬虫
  4. 'serverid' => 1, // 集群服务器ID
  5. ...
  6. );
  7. $spider = new phpspider($configs);
  8. $spider->start();

运行界面:如何实现多服务器集群爬虫?  - 图1