博客
关于我
Python网络爬虫入门版笔记 五、BeautifulSoup库的介绍和基本使用
阅读量:391 次
发布时间:2019-03-04

本文共 2211 字,大约阅读时间需要 7 分钟。

一、BeautifulSoup库简介

BeautifulSoup是一个非常优秀的Python第三方库,能够对HTML、XML等格式进行解析,并提取相关信息。它的作用类似于将一锅汤熬制出来,即对文档进行解析和提取信息。BeautifulSoup4(简称bs4)是该库的最新版本。

安装方法

在命令行界面中使用pip进行安装,例如:

pip install beautifulsoup4

安装完成后,可以直接使用BeautifulSoup库进行操作。


二、BeautifulSoup的简单演示

获取HTML源代码

想要获取某个HTML页面的源代码,有两种主要方式:

  • 使用浏览器右键查看页面源码。
  • 使用爬虫工具自动爬取。
  • 以下代码示例展示了如何使用BeautifulSoup库获取和解析HTML内容:

    from bs4 import BeautifulSoupimport requests# 发送请求获取HTML内容response = requests.get("https://example.com")html_content = response.text# 使用BeautifulSoup解析HTML内容soup = BeautifulSoup(html_content, "html.parser")# 打印解析结果print(soup.prettify())  # 格式化输出

    执行上述代码,如果能看到HTML的标准格式输出,则说明BeautifulSoup库安装成功。


    三、BeautifulSoup库的基本元素

    1.1 理解BeautifulSoup类

    BeautifulSoup类是处理HTML标签树的核心类。一个HTML文件由多个标签对(Tag)组成,这些标签形成一个树状结构。BeautifulSoup类可以理解为对标签树的维护和操作工具。

    1.2 创建BeautifulSoup对象

    BeautifulSoup对象的创建方式如下:

    soup = BeautifulSoup(html_content, "html.parser")
    • html_content:待解析的HTML内容。
    • "html.parser":指定使用HTML解析器。

    3.2 BeautifulSoup类的基本元素

    3.2.1 标签(Tag)

    标签是信息组织的基本单元,使用<tag></tag>标记开头和结尾。

    • 获取标签的名字:
      tag.name
    • 获取标签的属性:
      tag.attrs  # 返回一个字典,包含标签的属性信息
    • 获取标签内的非属性字符串:
      tag.string
    • 获取标签的父标签:
      tag.parent

    3.2.2 标签的属性

    标签的属性以字典形式存储,例如:

    print(tag.attrs)  # 输出字典形式的属性

    你也可以通过键值对直接获取特定属性:

    print(tag.attrs['href'])  # 获取名为`href`的属性

    3.2.3 导航字符串(NavigableString)

    标签内的非属性字符串可以通过以下方式获取:

    print(soup.find('p').string)  # 获取`

    `标签内的非属性字符串

    此外,NavigableString类型支持跨层次查找,例如:

    print(soup.find('a').find_all('p').string)  # 获取``标签下的所有`

    `标签的非属性字符串

    3.2.4 注释(Comment)

    标签内的注释可以通过以下方式获取:

    comment = tag.find_all(string=lambda x: type(x) is Comment)[0]print(comment.string)

    3.3 查看类型

    为了更好地理解标签的类型,可以使用type()函数:

    • 检查属性类型:
      print(type(tag.attrs))  # 输出`
      `
    • 检查标签类型:
      print(type(tag))  # 输出`
      `

    3.4 实际案例

    以下代码展示了如何解析和提取HTML内容:

    from bs4 import BeautifulSoupimport requestsresponse = requests.get("https://example.com")html_content = response.textsoup = BeautifulSoup(html_content, "html.parser")# 获取``标签的内容title = soup.find("title")print(title.string)  # 输出`<title>这是一个示例页面`# 获取``标签的属性link = soup.find("a")print(link.attrs)  # 输出字典形式的属性# 获取`

    `标签内的非属性字符串paragraph = soup.find("p")print(paragraph.string) # 输出`

    这是一个段落内容

    `

    总结

    BeautifulSoup库通过其强大的标签树解析能力,能够轻松提取HTML文档中的结构化信息。通过合理使用find()find_all()等方法,可以高效地完成网页信息提取和解析任务。

    转载地址:http://axzh.baihongyu.com/

    你可能感兴趣的文章
    Openlayers高级交互(19/20): 地图上点击某处,列表中显示对应位置
    查看>>
    Openlayers高级交互(2/20):清除所有图层的有效方法
    查看>>
    Openlayers高级交互(20/20):超级数据聚合,页面不再混乱
    查看>>
    Openlayers高级交互(3/20):动态添加 layer 到 layerGroup,并动态删除
    查看>>
    Openlayers高级交互(4/20):手绘多边形,导出KML文件,可以自定义name和style
    查看>>
    Openlayers高级交互(5/20):右键点击,获取该点下多个图层的feature信息
    查看>>
    Openlayers高级交互(6/20):绘制某点,判断它是否在一个电子围栏内
    查看>>
    Openlayers高级交互(7/20):点击某点弹出窗口,自动播放视频
    查看>>
    Openlayers高级交互(8/20):选取feature,平移feature
    查看>>
    Openlayers高级交互(9/20):编辑图形(放缩、平移、变形、旋转),停止编辑
    查看>>
    Openlayers:DMS-DD坐标形式互相转换
    查看>>
    openlayers:圆孔相机根据卫星经度、纬度、高度、半径比例推算绘制地面的拍摄的区域
    查看>>
    OpenLDAP(2.4.3x)服务器搭建及配置说明
    查看>>
    OpenLDAP编译安装及配置
    查看>>
    Openmax IL (二)Android多媒体编解码Component
    查看>>
    OpenMCU(一):STM32F407 FreeRTOS移植
    查看>>
    OpenMCU(三):STM32F103 FreeRTOS移植
    查看>>
    OpenMCU(三):STM32F103 FreeRTOS移植
    查看>>
    OpenMCU(二):GD32E23xx FreeRTOS移植
    查看>>
    OpenMCU(五):STM32F103时钟树初始化分析
    查看>>