go 语言爬虫库goquery介绍_代码007(未授权)

本文介绍: 爬虫，又称网页抓取、网络蜘蛛或网络爬虫，是一种自动浏览互联网并从网站上获取信息的程序或脚本。本文介绍goquery框架，并用之实现一个爬取自己主页，为自己添加流量的小爬虫。

爬虫，又称网页抓取、网络蜘蛛或网络爬虫，是一种自动浏览互联网并从网站上获取信息的程序或脚本。它通过模拟人类浏览器的行为，按照预设的规则和策略遍历互联网上的网页，并将所获取的数据存储下来进行进一步处理和分析。
爬虫在我们生活中可以产生的东西有很多

在生活中爬虫其实可以做很多事情，鉴于本文是一个入门教程，就接下来会以一个爬取csdn网页增加流量的列子逐步介绍和完善我们的爬虫程序。

GoQuery是专为Go（Golang）语言设计的一个强大的HTML解析和查询库。它模仿了jQuery的API风格，使得在Go中处理HTML文档变得简单且直观。

GoQuery主要用于网页抓取（Web Scraping），能够通过CSS选择器来定位、遍历和操作HTML元素。你可以使用它来提取网页中的特定数据、修改DOM结构或进行其他与HTML文档相关的操作。

NewDocumentFromReader 是GoQuery库中的一个函数，用于从io.Reader接口读取的HTML数据创建一个新的文档对象。对于文档对象是什么我们会在下文经性讲解。
func NewDocumentFromReader(reader io.Reader) (*Document, error)

func main() {
	// 通过http发送get请求
	req, err := http.Get("https://blog.csdn.net/studycodeday")
	if err != nil {
		slog.Error("访问主页失败")
	}
	defer req.Body.Close()
	// 解析请求体
	doc, err := goquery.NewDocumentFromReader(req.Body)
	// 让请求体按照html格式输出，也有Text()按照文本输出的方法
	fmt.Println(doc.Html())
}

Find()：
doc.Find(selector string)
根据给定的CSS选择器在当前选区（Selection）中查找匹配的元素。例如，doc.Find(“h1”)会找到所有

selection.Filter(selector string)
在当前选区中过滤出符合指定CSS选择器的元素子集。

selection.Eq(index int)
返回当前选区中索引为index的单个元素。索引从0开始。

First() 和 Last()：
selection.First()
selection.Last()
分别返回当前选区中的第一个或最后一个元素。

Next() 和 Prev()：
selection.NextAll()
selection.PrevAll()
获取当前元素之后的所有同辈元素或之前的所有同辈元素。

selection.Children()
获取当前选区中所有直接子元素。

Parents() 和 Closest()：
selection.Parents()
selection.Closest(selector string)
Parents()返回当前选区中所有父级元素，而Closest()返回最近的且匹配给定CSS选择器的祖先元素。

Attr()：
attr, exists := selection.Attr(attributeName string)
获取当前选区中首个元素的属性值，exists用于判断该属性是否存在。

Each()：
selection.Each(func(i int, s *goquery.Selection) {})
遍历当前选区中的每一个元素，并对每个元素执行一个函数。

	// 通过http发送get请求
	req, err := http.Get("https://blog.csdn.net/studycodeday")
	if err != nil {
		slog.Error("访问主页失败")
	}
	defer req.Body.Close()
	// 解析请求体
	doc, err := goquery.NewDocumentFromReader(req.Body)
	//fmt.Println(doc.Find(".mainContent .blog-list-box").Length())
	doc.Find(".mainContent .blog-list-box").Each(func(i int, s *goquery.Selection) {
		fmt.Println(s.Find("a").Attr("href"))
	})

func main() {
	var urls = make([]string, 0, 20)
	// 通过http发送get请求
	req, err := http.Get("https://blog.csdn.net/studycodeday")
	if err != nil {
		slog.Error("访问主页失败")
	}
	defer req.Body.Close()
	// 解析请求体
	doc, err := goquery.NewDocumentFromReader(req.Body)
	//fmt.Println(doc.Find(".mainContent .blog-list-box").Length())
	doc.Find(".mainContent .blog-list-box").Each(func(i int, s *goquery.Selection) {
		url, _ := s.Find("a").Attr("href")
		//添加到数组中
		urls = append(urls, url)
	})
	for _, url := range urls {
		_, err = http.Get(url)
		if err != nil {
			slog.Error("访问网页失败：" + url)
		}
		fmt.Println("访问成功：" + url)
		time.Sleep(time.Duration(rand.Int31n(60)) * time.Second)
	}
}