博客
关于我
Python网络爬虫入门版笔记 五、BeautifulSoup库的介绍和基本使用
阅读量:391 次
发布时间:2019-03-04

本文共 2211 字,大约阅读时间需要 7 分钟。

一、BeautifulSoup库简介

BeautifulSoup是一个非常优秀的Python第三方库,能够对HTML、XML等格式进行解析,并提取相关信息。它的作用类似于将一锅汤熬制出来,即对文档进行解析和提取信息。BeautifulSoup4(简称bs4)是该库的最新版本。

安装方法

在命令行界面中使用pip进行安装,例如:

pip install beautifulsoup4

安装完成后,可以直接使用BeautifulSoup库进行操作。


二、BeautifulSoup的简单演示

获取HTML源代码

想要获取某个HTML页面的源代码,有两种主要方式:

  • 使用浏览器右键查看页面源码。
  • 使用爬虫工具自动爬取。
  • 以下代码示例展示了如何使用BeautifulSoup库获取和解析HTML内容:

    from bs4 import BeautifulSoupimport requests# 发送请求获取HTML内容response = requests.get("https://example.com")html_content = response.text# 使用BeautifulSoup解析HTML内容soup = BeautifulSoup(html_content, "html.parser")# 打印解析结果print(soup.prettify())  # 格式化输出

    执行上述代码,如果能看到HTML的标准格式输出,则说明BeautifulSoup库安装成功。


    三、BeautifulSoup库的基本元素

    1.1 理解BeautifulSoup类

    BeautifulSoup类是处理HTML标签树的核心类。一个HTML文件由多个标签对(Tag)组成,这些标签形成一个树状结构。BeautifulSoup类可以理解为对标签树的维护和操作工具。

    1.2 创建BeautifulSoup对象

    BeautifulSoup对象的创建方式如下:

    soup = BeautifulSoup(html_content, "html.parser")
    • html_content:待解析的HTML内容。
    • "html.parser":指定使用HTML解析器。

    3.2 BeautifulSoup类的基本元素

    3.2.1 标签(Tag)

    标签是信息组织的基本单元,使用<tag></tag>标记开头和结尾。

    • 获取标签的名字:
      tag.name
    • 获取标签的属性:
      tag.attrs  # 返回一个字典,包含标签的属性信息
    • 获取标签内的非属性字符串:
      tag.string
    • 获取标签的父标签:
      tag.parent

    3.2.2 标签的属性

    标签的属性以字典形式存储,例如:

    print(tag.attrs)  # 输出字典形式的属性

    你也可以通过键值对直接获取特定属性:

    print(tag.attrs['href'])  # 获取名为`href`的属性

    3.2.3 导航字符串(NavigableString)

    标签内的非属性字符串可以通过以下方式获取:

    print(soup.find('p').string)  # 获取`

    `标签内的非属性字符串

    此外,NavigableString类型支持跨层次查找,例如:

    print(soup.find('a').find_all('p').string)  # 获取``标签下的所有`

    `标签的非属性字符串

    3.2.4 注释(Comment)

    标签内的注释可以通过以下方式获取:

    comment = tag.find_all(string=lambda x: type(x) is Comment)[0]print(comment.string)

    3.3 查看类型

    为了更好地理解标签的类型,可以使用type()函数:

    • 检查属性类型:
      print(type(tag.attrs))  # 输出`
      `
    • 检查标签类型:
      print(type(tag))  # 输出`
      `

    3.4 实际案例

    以下代码展示了如何解析和提取HTML内容:

    from bs4 import BeautifulSoupimport requestsresponse = requests.get("https://example.com")html_content = response.textsoup = BeautifulSoup(html_content, "html.parser")# 获取``标签的内容title = soup.find("title")print(title.string)  # 输出`<title>这是一个示例页面`# 获取``标签的属性link = soup.find("a")print(link.attrs)  # 输出字典形式的属性# 获取`

    `标签内的非属性字符串paragraph = soup.find("p")print(paragraph.string) # 输出`

    这是一个段落内容

    `

    总结

    BeautifulSoup库通过其强大的标签树解析能力,能够轻松提取HTML文档中的结构化信息。通过合理使用find()find_all()等方法,可以高效地完成网页信息提取和解析任务。

    转载地址:http://axzh.baihongyu.com/

    你可能感兴趣的文章
    OpenCV与AI深度学习 | 基于机器视觉的磁瓦表面缺陷检测方案
    查看>>
    OpenCV与AI深度学习 | 基于深度学习的轮胎缺陷检测系统
    查看>>
    OpenCV与AI深度学习 | 如何使用YOLO-World做目标检测
    查看>>
    OpenCV与AI深度学习 | 如何使用YOLOv9分割图像中的对象
    查看>>
    OpenCV与AI深度学习 | 如何使用YOLOv9检测图片和视频中的目标
    查看>>
    OpenCV与AI深度学习 | 如何在 Docker 容器中使用 GPU
    查看>>
    OpenCV与AI深度学习 | 实战 | OpenCV中更稳更快的找圆方法--EdgeDrawing使用演示(详细步骤 + 代码)
    查看>>
    OpenCV与AI深度学习 | 实战 | OpenCV传统方法实现密集圆形分割与计数(详细步骤 + 代码)
    查看>>
    OpenCV与AI深度学习 | 实战 | OpenCV实现扫描文本矫正应用与实现详解(附源码)
    查看>>
    OpenCV与AI深度学习 | 实战 | YOLO11自定义数据集训练实现缺陷检测 (标注+训练+预测 保姆级教程)
    查看>>
    OpenCV与AI深度学习 | 实战 | YOLOv10模型微调检测肾结石并提高准确率
    查看>>
    OpenCV与AI深度学习 | 实战 | 使用OpenCV和Streamlit搭建虚拟化妆应用程序(附源码)
    查看>>
    OpenCV与AI深度学习 | 实战 | 使用OpenCV确定对象的方向(附源码)
    查看>>
    OpenCV与AI深度学习 | 实战 | 使用YOLOv8 Pose实现瑜伽姿势识别
    查看>>
    OpenCV与AI深度学习 | 实战 | 使用YoloV8实例分割识别猪的姿态(含数据集)
    查看>>
    OpenCV与AI深度学习 | 实战 | 使用姿态估计算法构建简单的健身训练辅助应用程序
    查看>>
    OpenCV与AI深度学习 | 实战 | 基于OpenCV和K-Means聚类实现颜色分割(步骤 + 代码)
    查看>>
    OpenCV与AI深度学习 | 实战 | 基于YoloV5和Mask RCNN实现汽车表面划痕检测(步骤 + 代码)
    查看>>
    OpenCV与AI深度学习 | 实战 | 基于YOLOv9+SAM实现动态目标检测和分割(步骤 + 代码)
    查看>>
    OpenCV与AI深度学习 | 实战 | 基于YOLOv9和OpenCV实现车辆跟踪计数(步骤 + 源码)
    查看>>