魔豆文库文章爬虫使用教程

介绍

魔豆文库系统【专业版】从 3.0 版本开始,支持文章爬虫对文章进行采集。该爬虫是一个通用的文章内容爬虫,支持智能提取自定义两个采集模式。

魔豆文库文章爬虫使用教程 - 图1

智能提取

智能提取,自动根据给出的链接去采集网页并自动识别文章的主体内容,并提取出来。

识别率能达到80%以上的准确率。也就是您在采集文章时,80%以上的文章页面不需要专门写采集规则。

自定义

这个适合有HTML基础的人使用,可以自定义采集一个页面的哪个元素选择器下的内容,以及排除哪个选择器的内容。

使用

想要给哪些用户组开放文章采集权限,直接在管理后台设置即可。

管理后台 -> 用户管理 -> 角色管理 -> 编辑相应用户组,然后在对话框中启用允许采集文章

魔豆文库文章爬虫使用教程 - 图2

采集演示:智能提取

进入到 https://moredoc.mnt.ltd/post 页面,可以使用以下链接分别粘贴进去,选择智能提取,然后点击采集按钮执行采集进行测试。

示例链接:

  1. https://www.liaoxuefeng.com/wiki/1252599548343744/1298069154955297
  2. https://gitee.com/mnt-ltd/morender
  3. https://github.com/mnt-ltd/moredoc
  4. https://www.bookstack.cn/read/moredoc/v3.1.0.md
  5. https://www.oschina.net/news/291313/moredoc-3-1-0-released

魔豆文库文章爬虫使用教程 - 图3

如果采集过来的文章中的图片没法查看,则有可能是网站启用了防盗链,不需要管它,直接保存即可,程序会自动将图片采集过来。

自定义采集规则

以采集 https://nightlies.apache.org/flink/flink-docs-release-1.19/zh/docs/dev/datastream/execution_mode/ 的文章为例。

1. 分析页面内容结构

浏览器打开页面,按F12,查看和分析页面内容结构。

魔豆文库文章爬虫使用教程 - 图4

2. 写采集规则

通过分析,我们发现,文档的主体内容选择器是article.markdown

同时发现页面中的h1~h6标题,有锚点存在,排除掉它。排除选择器为 .anchor

魔豆文库文章爬虫使用教程 - 图5

同时我们也想要把内容中的关键字,如执行模式替换为爬虫采集,则我们的采集规则如下:

魔豆文库文章爬虫使用教程 - 图6

3. 执行采集

点击采集按钮,采集到的内容如下:

魔豆文库文章爬虫使用教程 - 图7

声明

魔豆文库该爬虫只是一个通用的爬虫功能,不针对特定网站。