Python网络爬虫入门版笔记五、BeautifulSoup库的介绍和基本使用-白红宇

Python网络爬虫入门版笔记五、BeautifulSoup库的介绍和基本使用

阅读量：391 次

发布时间：2019-03-04

本文共 2211 字，大约阅读时间需要 7 分钟。

一、BeautifulSoup库简介

BeautifulSoup是一个非常优秀的Python第三方库，能够对HTML、XML等格式进行解析，并提取相关信息。它的作用类似于将一锅汤熬制出来，即对文档进行解析和提取信息。BeautifulSoup4（简称bs4）是该库的最新版本。

安装方法

在命令行界面中使用pip进行安装，例如：

pip install beautifulsoup4

安装完成后，可以直接使用BeautifulSoup库进行操作。

二、BeautifulSoup的简单演示

获取HTML源代码

想要获取某个HTML页面的源代码，有两种主要方式：

使用浏览器右键查看页面源码。

使用爬虫工具自动爬取。

以下代码示例展示了如何使用BeautifulSoup库获取和解析HTML内容：

from bs4 import BeautifulSoupimport requests# 发送请求获取HTML内容response = requests.get("https://example.com")html_content = response.text# 使用BeautifulSoup解析HTML内容soup = BeautifulSoup(html_content, "html.parser")# 打印解析结果print(soup.prettify())  # 格式化输出

执行上述代码，如果能看到HTML的标准格式输出，则说明BeautifulSoup库安装成功。

三、BeautifulSoup库的基本元素

1.1 理解BeautifulSoup类

BeautifulSoup类是处理HTML标签树的核心类。一个HTML文件由多个标签对（Tag）组成，这些标签形成一个树状结构。BeautifulSoup类可以理解为对标签树的维护和操作工具。

1.2 创建BeautifulSoup对象

BeautifulSoup对象的创建方式如下：

soup = BeautifulSoup(html_content, "html.parser")

html_content：待解析的HTML内容。

"html.parser"：指定使用HTML解析器。

3.2 BeautifulSoup类的基本元素

3.2.1 标签（Tag）

标签是信息组织的基本单元，使用<tag>和</tag>标记开头和结尾。

获取标签的名字：
```
tag.name
```

获取标签的属性：

tag.attrs  # 返回一个字典，包含标签的属性信息

获取标签内的非属性字符串：
```
tag.string
```

获取标签的父标签：
```
tag.parent
```

3.2.2 标签的属性

标签的属性以字典形式存储，例如：

print(tag.attrs)  # 输出字典形式的属性

你也可以通过键值对直接获取特定属性：

print(tag.attrs['href'])  # 获取名为`href`的属性

3.2.3 导航字符串（NavigableString）

标签内的非属性字符串可以通过以下方式获取：

print(soup.find('p').string)  # 获取``标签内的非属性字符串

此外，NavigableString类型支持跨层次查找，例如：

print(soup.find('a').find_all('p').string)  # 获取``标签下的所有``标签的非属性字符串

3.2.4 注释（Comment）

标签内的注释可以通过以下方式获取：

comment = tag.find_all(string=lambda x: type(x) is Comment)[0]print(comment.string)

3.3 查看类型

为了更好地理解标签的类型，可以使用type()函数：

检查属性类型：

print(type(tag.attrs))  # 输出`
     
      `

检查标签类型：

print(type(tag))  # 输出`
     
      `

3.4 实际案例

以下代码展示了如何解析和提取HTML内容：

from bs4 import BeautifulSoupimport requestsresponse = requests.get("https://example.com")html_content = response.textsoup = BeautifulSoup(html_content, "html.parser")# 获取``标签的内容title = soup.find("title")print(title.string)  # 输出`<title>这是一个示例页面`# 获取``标签的属性link = soup.find("a")print(link.attrs)  # 输出字典形式的属性# 获取``标签内的非属性字符串paragraph = soup.find("p")print(paragraph.string)  # 输出`
这是一个段落内容
`