博客
关于我
Python网络爬虫入门版笔记 五、BeautifulSoup库的介绍和基本使用
阅读量:391 次
发布时间:2019-03-04

本文共 2253 字,大约阅读时间需要 7 分钟。

一、BeautifulSoup库简介

BeautifulSoup是一个非常优秀的Python第三方库,能够对HTML、XML等格式进行解析,并提取相关信息。它的作用类似于将一锅汤熬制出来,即对文档进行解析和提取信息。BeautifulSoup4(简称bs4)是该库的最新版本。

安装方法

在命令行界面中使用pip进行安装,例如:

pip install beautifulsoup4

安装完成后,可以直接使用BeautifulSoup库进行操作。


二、BeautifulSoup的简单演示

获取HTML源代码

想要获取某个HTML页面的源代码,有两种主要方式:

  • 使用浏览器右键查看页面源码。
  • 使用爬虫工具自动爬取。
  • 以下代码示例展示了如何使用BeautifulSoup库获取和解析HTML内容:

    from bs4 import BeautifulSoup
    import requests
    # 发送请求获取HTML内容
    response = requests.get("https://example.com")
    html_content = response.text
    # 使用BeautifulSoup解析HTML内容
    soup = BeautifulSoup(html_content, "html.parser")
    # 打印解析结果
    print(soup.prettify()) # 格式化输出

    执行上述代码,如果能看到HTML的标准格式输出,则说明BeautifulSoup库安装成功。


    三、BeautifulSoup库的基本元素

    1.1 理解BeautifulSoup类

    BeautifulSoup类是处理HTML标签树的核心类。一个HTML文件由多个标签对(Tag)组成,这些标签形成一个树状结构。BeautifulSoup类可以理解为对标签树的维护和操作工具。

    1.2 创建BeautifulSoup对象

    BeautifulSoup对象的创建方式如下:

    soup = BeautifulSoup(html_content, "html.parser")
    • html_content:待解析的HTML内容。
    • "html.parser":指定使用HTML解析器。

    3.2 BeautifulSoup类的基本元素

    3.2.1 标签(Tag)

    标签是信息组织的基本单元,使用<tag></tag>标记开头和结尾。

    • 获取标签的名字:
      tag.name
    • 获取标签的属性:
      tag.attrs  # 返回一个字典,包含标签的属性信息
    • 获取标签内的非属性字符串:
      tag.string
    • 获取标签的父标签:
      tag.parent

    3.2.2 标签的属性

    标签的属性以字典形式存储,例如:

    print(tag.attrs)  # 输出字典形式的属性

    你也可以通过键值对直接获取特定属性:

    print(tag.attrs['href'])  # 获取名为`href`的属性

    3.2.3 导航字符串(NavigableString)

    标签内的非属性字符串可以通过以下方式获取:

    print(soup.find('p').string)  # 获取`

    `标签内的非属性字符串

    此外,NavigableString类型支持跨层次查找,例如:

    print(soup.find('a').find_all('p').string)  # 获取``标签下的所有`

    `标签的非属性字符串

    3.2.4 注释(Comment)

    标签内的注释可以通过以下方式获取:

    comment = tag.find_all(string=lambda x: type(x) is Comment)[0]
    print(comment.string)

    3.3 查看类型

    为了更好地理解标签的类型,可以使用type()函数:

    • 检查属性类型:
      print(type(tag.attrs))  # 输出`
      `
    • 检查标签类型:
      print(type(tag))  # 输出`
      `

    3.4 实际案例

    以下代码展示了如何解析和提取HTML内容:

    from bs4 import BeautifulSoup
    import requests
    response = requests.get("https://example.com")
    html_content = response.text
    soup = BeautifulSoup(html_content, "html.parser")
    # 获取``标签的内容<div></div>title = soup.find("title")<div></div>print(title.string) # 输出`<title>这是一个示例页面`
    # 获取``标签的属性
    link = soup.find("a")
    print(link.attrs) # 输出字典形式的属性
    # 获取`

    `标签内的非属性字符串

    paragraph = soup.find("p")
    print(paragraph.string) # 输出`

    这是一个段落内容

    `

    总结

    BeautifulSoup库通过其强大的标签树解析能力,能够轻松提取HTML文档中的结构化信息。通过合理使用find()find_all()等方法,可以高效地完成网页信息提取和解析任务。

    转载地址:http://axzh.baihongyu.com/

    你可能感兴趣的文章
    NTPD使用/etc/ntp.conf配置时钟同步详解
    查看>>
    NTP及Chrony时间同步服务设置
    查看>>
    NTP服务器
    查看>>
    NTP配置
    查看>>
    NUC1077 Humble Numbers【数学计算+打表】
    查看>>
    NuGet Gallery 开源项目快速入门指南
    查看>>
    NuGet(微软.NET开发平台的软件包管理工具)在VisualStudio中的安装的使用
    查看>>
    nuget.org 无法加载源 https://api.nuget.org/v3/index.json 的服务索引
    查看>>
    Nuget~管理自己的包包
    查看>>
    NuGet学习笔记001---了解使用NuGet给net快速获取引用
    查看>>
    nullnullHuge Pages
    查看>>
    NullPointerException Cannot invoke setSkipOutputConversion(boolean) because functionToInvoke is null
    查看>>
    null可以转换成任意非基本类型(int/short/long/float/boolean/byte/double/char以外)
    查看>>
    Numix Core 开源项目教程
    查看>>
    numpy
    查看>>
    NumPy 或 Pandas:将数组类型保持为整数,同时具有 NaN 值
    查看>>
    numpy 或 scipy 有哪些可能的计算可以返回 NaN?
    查看>>
    numpy 数组 dtype 在 Windows 10 64 位机器中默认为 int32
    查看>>
    numpy 数组与矩阵的乘法理解
    查看>>
    NumPy 数组拼接方法-ChatGPT4o作答
    查看>>