python爬虫基础_代码007(未授权)

本文介绍: Python爬虫是一种通过编程自动化地获取互联网上的信息的技术。

Python爬虫是一种通过编程自动化地获取互联网上的信息的技术。其原理可以分为以下几个步骤：

今天主要介绍一下BeautifulSoup模块

BeautifulSoup是一个用于从HTML或XML文档中提取数据的Python库。它的主要作用是解析复杂的HTML或XML文档，并提供了一种简单的方式来浏览文档树、搜索特定的标签、提取数据等。BeautifulSoup的设计目标是让数据提取变得容易、直观，并且具有Pythonic的风格。

安装命令

pip install bs4

在这里插入图片描述

我这里是安装过了，第一次安装会出现suessful

# coding=utf-8
import requests  # 导入请求模块
from bs4 import BeautifulSoup  # 
# from bs4 import BeautifulSoup 这样导入的目的是从 bs4（Beautiful Soup 4）库中引入 BeautifulSoup 类。这样导入的好处是在代码中使用 BeautifulSoup 类时不需要每次都写出完整的模块路径，简化了代码，提高了可读性。

# 设置要爬取的网站
url = "https://www.baidu.com/"
heder = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

# 爬取内容
res = requests.get(url, headers=heder)  # 这里是去请求网页的内容
# 获取内容
content = res.text  # 这里是让爬取的内容以文本的形式打开，同时保存到变量

# 初始化Beatifulsoup
soup = BeautifulSoup(content, 'html.parser')
# 获取标题标签
print(soup.title)
# 如果想要直接获取标题的内容
# print(soup.title.string)

在BeautifulSoup中，soup.tagName 的语法用于访问解析后的HTML文档中特定HTML标签的第一个出现实例。在这里，soup 是BeautifulSoup对象的引用，而tagName是你想要访问的HTML标签的名称。

# coding=utf-8
import requests
from bs4 import BeautifulSoup

# 设置要爬取的网站
url = "https://www.baidu.com/"
heder = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

# 爬取内容
res = requests.get(url, headers=heder)
# 获取内容
content = res.text  # 这里是让爬取的内容以文本的形式打开，同时保存到变量

# 初始化Beatifulsoup
soup = BeautifulSoup(content, 'html.parser')
# 获取<a></a>标签第一次出现的地方
# print(soup.tagName)
print(soup.a)

soup.find() 是 BeautifulSoup 中用于查找单个标签的方法。它用于按照指定的条件查找文档中的第一个匹配的标签，并返回这个标签的 BeautifulSoup 对象。

查找标签的功能与soup.tagName是一样的，不同的是soup.find拥有丰富的参数，所以可以通过标签的class属性，或者是id属性来查找特定的标签

# coding=utf-8
import requests
from bs4 import BeautifulSoup

# 设置要爬取的网站
url = "https://www.baidu.com/"
heder = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

# 爬取内容
res = requests.get(url, headers=heder)
# 获取内容
content = res.text  # 这里是让爬取的内容以文本的形式打开，同时保存到变量

# 初始化Beatifulsoup
soup = BeautifulSoup(content, 'html.parser')
# 获取<a></a>标签第一次出现的地方
print(soup.find('input', attrs={'id': 'su'}))

# coding=utf-8
import requests
from bs4 import BeautifulSoup

# 设置要爬取的网站
url = "https://www.baidu.com/"
heder = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

# 爬取内容
res = requests.get(url, headers=heder)
# 获取内容
content = res.text  # 这里是让爬取的内容以文本的形式打开，同时保存到变量

# 初始化Beatifulsoup
soup = BeautifulSoup(content, 'html.parser')
# 获取所有的a标签并以列表形式返回
list_a = soup.find_all('a')
# 输出显示获取到的a标签列表
for i in list_a:
    print(i)

# coding=utf-8
import requests
from bs4 import BeautifulSoup

# 设置要爬取的网站
url = "https://www.baidu.com/"
heder = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

# 爬取内容
res = requests.get(url, headers=heder)
# 获取内容
content = res.text  # 这里是让爬取的内容以文本的形式打开，同时保存到变量

# 初始化Beatifulsoup
soup = BeautifulSoup(content, 'html.parser')
# 获取所有的a标签和input标签并以列表形式返回
list_a = soup.find_all('a', 'input')
# 输出显示获取到的a标签列表
for i in list_a:
    print(i)

# 找所有的xxx标签： 属性xxx满足对应正则表达式
soup.find_all(name='xxx',attrs={'xxx':re.compile('正则表达式')}

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

python爬虫基础

前言

1、python相关库（BeautifulSoup）

2、BeautifulSoup模块的安装

3、BeautifulSoup的使用

3.1 简单的使用（以百度为例）

3.2 soup.tagName的使用

3.3 soup.find

3.4 soup.find_all

发表回复取消回复