1. 爬虫小案例

1.1.1. 爬虫步骤

  • 明确目标(确定在哪个网站搜索)
  • 爬(爬下内容)
  • 取(筛选想要的)
  • 处理数据(按照你的想法去处理)
  1. package main
  2. import (
  3. "fmt"
  4. "io/ioutil"
  5. "net/http"
  6. "regexp"
  7. )
  8. //这个只是一个简单的版本只是获取QQ邮箱并且没有进行封装操作,另外爬出来的数据也没有进行去重操作
  9. var (
  10. // \d是数字
  11. reQQEmail = `(\d+)@qq.com`
  12. )
  13. // 爬邮箱
  14. func GetEmail() {
  15. // 1.去网站拿数据
  16. resp, err := http.Get("https://tieba.baidu.com/p/6051076813?red_tag=1573533731")
  17. HandleError(err, "http.Get url")
  18. defer resp.Body.Close()
  19. // 2.读取页面内容
  20. pageBytes, err := ioutil.ReadAll(resp.Body)
  21. HandleError(err, "ioutil.ReadAll")
  22. // 字节转字符串
  23. pageStr := string(pageBytes)
  24. //fmt.Println(pageStr)
  25. // 3.过滤数据,过滤qq邮箱
  26. re := regexp.MustCompile(reQQEmail)
  27. // -1代表取全部
  28. results := re.FindAllStringSubmatch(pageStr, -1)
  29. //fmt.Println(results)
  30. // 遍历结果
  31. for _, result := range results {
  32. fmt.Println("email:", result[0])
  33. fmt.Println("qq:", result[1])
  34. }
  35. }
  36. // 处理异常
  37. func HandleError(err error, why string) {
  38. if err != nil {
  39. fmt.Println(why, err)
  40. }
  41. }
  42. func main() {
  43. GetEmail()
  44. }

1.1.2. 正则表达式

  • 文档:https://studygolang.com/pkgdoc
  • API
    • re := regexp.MustCompile(reStr),传入正则表达式,得到正则表达式对象
    • ret := re.FindAllStringSubmatch(srcStr,-1):用正则对象,获取页面页面,srcStr是页面内容,-1代表取全部
  • 爬邮箱
  • 方法抽取
  • 爬超链接
  • 爬手机号
  • 爬身份证号
  • 爬图片链接
  1. package main
  2. import (
  3. "fmt"
  4. "io/ioutil"
  5. "net/http"
  6. "regexp"
  7. )
  8. var (
  9. // w代表大小写字母+数字+下划线
  10. reEmail = `\w+@\w+\.\w+`
  11. // s?有或者没有s
  12. // +代表出1次或多次
  13. //\s\S各种字符
  14. // +?代表贪婪模式
  15. reLinke = `href="(https?://[\s\S]+?)"`
  16. rePhone = `1[3456789]\d\s?\d{4}\s?\d{4}`
  17. reIdcard = `[123456789]\d{5}((19\d{2})|(20[01]\d))((0[1-9])|(1[012]))((0[1-9])|([12]\d)|(3[01]))\d{3}[\dXx]`
  18. reImg = `https?://[^"]+?(\.((jpg)|(png)|(jpeg)|(gif)|(bmp)))`
  19. )
  20. // 处理异常
  21. func HandleError(err error, why string) {
  22. if err != nil {
  23. fmt.Println(why, err)
  24. }
  25. }
  26. func GetEmail2(url string) {
  27. pageStr := GetPageStr(url)
  28. re := regexp.MustCompile(reEmail)
  29. results := re.FindAllStringSubmatch(pageStr, -1)
  30. for _, result := range results {
  31. fmt.Println(result)
  32. }
  33. }
  34. // 抽取根据url获取内容
  35. func GetPageStr(url string) (pageStr string) {
  36. resp, err := http.Get(url)
  37. HandleError(err, "http.Get url")
  38. defer resp.Body.Close()
  39. // 2.读取页面内容
  40. pageBytes, err := ioutil.ReadAll(resp.Body)
  41. HandleError(err, "ioutil.ReadAll")
  42. // 字节转字符串
  43. pageStr = string(pageBytes)
  44. return pageStr
  45. }
  46. func main() {
  47. // 2.抽取的爬邮箱
  48. // GetEmail2("https://tieba.baidu.com/p/6051076813?red_tag=1573533731")
  49. // 3.爬链接
  50. //GetLink("http://www.baidu.com/s?wd=%E8%B4%B4%E5%90%A7%20%E7%95%99%E4%B8%8B%E9%82%AE%E7%AE%B1&rsv_spt=1&rsv_iqid=0x98ace53400003985&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_dl=ib&rsv_sug2=0&inputT=5197&rsv_sug4=6345")
  51. // 4.爬手机号
  52. //GetPhone("https://www.zhaohaowang.com/")
  53. // 5.爬身份证号
  54. //GetIdCard("https://henan.qq.com/a/20171107/069413.htm")
  55. // 6.爬图片
  56. // GetImg("http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=%E7%BE%8E%E5%A5%B3")
  57. }
  58. func GetIdCard(url string) {
  59. pageStr := GetPageStr(url)
  60. re := regexp.MustCompile(reIdcard)
  61. results := re.FindAllStringSubmatch(pageStr, -1)
  62. for _, result := range results {
  63. fmt.Println(result)
  64. }
  65. }
  66. // 爬链接
  67. func GetLink(url string) {
  68. pageStr := GetPageStr(url)
  69. re := regexp.MustCompile(reLinke)
  70. results := re.FindAllStringSubmatch(pageStr, -1)
  71. for _, result := range results {
  72. fmt.Println(result[1])
  73. }
  74. }
  75. //爬手机号
  76. func GetPhone(url string) {
  77. pageStr := GetPageStr(url)
  78. re := regexp.MustCompile(rePhone)
  79. results := re.FindAllStringSubmatch(pageStr, -1)
  80. for _, result := range results {
  81. fmt.Println(result)
  82. }
  83. }
  84. func GetImg(url string) {
  85. pageStr := GetPageStr(url)
  86. re := regexp.MustCompile(reImg)
  87. results := re.FindAllStringSubmatch(pageStr, -1)
  88. for _, result := range results {
  89. fmt.Println(result[0])
  90. }
  91. }

1.1.3. 并发爬取美图

下面的两个是即将要爬的网站,如果网址失效自己换一个就好了

  1. package main
  2. import (
  3. "fmt"
  4. "io/ioutil"
  5. "net/http"
  6. "regexp"
  7. "strconv"
  8. "strings"
  9. "sync"
  10. "time"
  11. )
  12. func HandleError(err error, why string) {
  13. if err != nil {
  14. fmt.Println(why, err)
  15. }
  16. }
  17. // 下载图片,传入的是图片叫什么
  18. func DownloadFile(url string, filename string) (ok bool) {
  19. resp, err := http.Get(url)
  20. HandleError(err, "http.get.url")
  21. defer resp.Body.Close()
  22. bytes, err := ioutil.ReadAll(resp.Body)
  23. HandleError(err, "resp.body")
  24. filename = "E:/topgoer.com/src/github.com/student/3.0/img/" + filename
  25. // 写出数据
  26. err = ioutil.WriteFile(filename, bytes, 0666)
  27. if err != nil {
  28. return false
  29. } else {
  30. return true
  31. }
  32. }
  33. // 并发爬思路:
  34. // 1.初始化数据管道
  35. // 2.爬虫写出:26个协程向管道中添加图片链接
  36. // 3.任务统计协程:检查26个任务是否都完成,完成则关闭数据管道
  37. // 4.下载协程:从管道里读取链接并下载
  38. var (
  39. // 存放图片链接的数据管道
  40. chanImageUrls chan string
  41. waitGroup sync.WaitGroup
  42. // 用于监控协程
  43. chanTask chan string
  44. reImg = `https?://[^"]+?(\.((jpg)|(png)|(jpeg)|(gif)|(bmp)))`
  45. )
  46. func main() {
  47. // myTest()
  48. // DownloadFile("http://i1.shaodiyejin.com/uploads/tu/201909/10242/e5794daf58_4.jpg", "1.jpg")
  49. // 1.初始化管道
  50. chanImageUrls = make(chan string, 1000000)
  51. chanTask = make(chan string, 26)
  52. // 2.爬虫协程
  53. for i := 1; i < 27; i++ {
  54. waitGroup.Add(1)
  55. go getImgUrls("https://www.bizhizu.cn/shouji/tag-%E5%8F%AF%E7%88%B1/" + strconv.Itoa(i) + ".html")
  56. }
  57. // 3.任务统计协程,统计26个任务是否都完成,完成则关闭管道
  58. waitGroup.Add(1)
  59. go CheckOK()
  60. // 4.下载协程:从管道中读取链接并下载
  61. for i := 0; i < 5; i++ {
  62. waitGroup.Add(1)
  63. go DownloadImg()
  64. }
  65. waitGroup.Wait()
  66. }
  67. // 下载图片
  68. func DownloadImg() {
  69. for url := range chanImageUrls {
  70. filename := GetFilenameFromUrl(url)
  71. ok := DownloadFile(url, filename)
  72. if ok {
  73. fmt.Printf("%s 下载成功\n", filename)
  74. } else {
  75. fmt.Printf("%s 下载失败\n", filename)
  76. }
  77. }
  78. waitGroup.Done()
  79. }
  80. // 截取url名字
  81. func GetFilenameFromUrl(url string) (filename string) {
  82. // 返回最后一个/的位置
  83. lastIndex := strings.LastIndex(url, "/")
  84. // 切出来
  85. filename = url[lastIndex+1:]
  86. // 时间戳解决重名
  87. timePrefix := strconv.Itoa(int(time.Now().UnixNano()))
  88. filename = timePrefix + "_" + filename
  89. return
  90. }
  91. // 任务统计协程
  92. func CheckOK() {
  93. var count int
  94. for {
  95. url := <-chanTask
  96. fmt.Printf("%s 完成了爬取任务\n", url)
  97. count++
  98. if count == 26 {
  99. close(chanImageUrls)
  100. break
  101. }
  102. }
  103. waitGroup.Done()
  104. }
  105. // 爬图片链接到管道
  106. // url是传的整页链接
  107. func getImgUrls(url string) {
  108. urls := getImgs(url)
  109. // 遍历切片里所有链接,存入数据管道
  110. for _, url := range urls {
  111. chanImageUrls <- url
  112. }
  113. // 标识当前协程完成
  114. // 每完成一个任务,写一条数据
  115. // 用于监控协程知道已经完成了几个任务
  116. chanTask <- url
  117. waitGroup.Done()
  118. }
  119. // 获取当前页图片链接
  120. func getImgs(url string) (urls []string) {
  121. pageStr := GetPageStr(url)
  122. re := regexp.MustCompile(reImg)
  123. results := re.FindAllStringSubmatch(pageStr, -1)
  124. fmt.Printf("共找到%d条结果\n", len(results))
  125. for _, result := range results {
  126. url := result[0]
  127. urls = append(urls, url)
  128. }
  129. return
  130. }
  131. // 抽取根据url获取内容
  132. func GetPageStr(url string) (pageStr string) {
  133. resp, err := http.Get(url)
  134. HandleError(err, "http.Get url")
  135. defer resp.Body.Close()
  136. // 2.读取页面内容
  137. pageBytes, err := ioutil.ReadAll(resp.Body)
  138. HandleError(err, "ioutil.ReadAll")
  139. // 字节转字符串
  140. pageStr = string(pageBytes)
  141. return pageStr
  142. }