博客
关于我
Python网络爬虫入门版笔记 五、BeautifulSoup库的介绍和基本使用
阅读量:391 次
发布时间:2019-03-04

本文共 2211 字,大约阅读时间需要 7 分钟。

一、BeautifulSoup库简介

BeautifulSoup是一个非常优秀的Python第三方库,能够对HTML、XML等格式进行解析,并提取相关信息。它的作用类似于将一锅汤熬制出来,即对文档进行解析和提取信息。BeautifulSoup4(简称bs4)是该库的最新版本。

安装方法

在命令行界面中使用pip进行安装,例如:

pip install beautifulsoup4

安装完成后,可以直接使用BeautifulSoup库进行操作。


二、BeautifulSoup的简单演示

获取HTML源代码

想要获取某个HTML页面的源代码,有两种主要方式:

  • 使用浏览器右键查看页面源码。
  • 使用爬虫工具自动爬取。
  • 以下代码示例展示了如何使用BeautifulSoup库获取和解析HTML内容:

    from bs4 import BeautifulSoupimport requests# 发送请求获取HTML内容response = requests.get("https://example.com")html_content = response.text# 使用BeautifulSoup解析HTML内容soup = BeautifulSoup(html_content, "html.parser")# 打印解析结果print(soup.prettify())  # 格式化输出

    执行上述代码,如果能看到HTML的标准格式输出,则说明BeautifulSoup库安装成功。


    三、BeautifulSoup库的基本元素

    1.1 理解BeautifulSoup类

    BeautifulSoup类是处理HTML标签树的核心类。一个HTML文件由多个标签对(Tag)组成,这些标签形成一个树状结构。BeautifulSoup类可以理解为对标签树的维护和操作工具。

    1.2 创建BeautifulSoup对象

    BeautifulSoup对象的创建方式如下:

    soup = BeautifulSoup(html_content, "html.parser")
    • html_content:待解析的HTML内容。
    • "html.parser":指定使用HTML解析器。

    3.2 BeautifulSoup类的基本元素

    3.2.1 标签(Tag)

    标签是信息组织的基本单元,使用<tag></tag>标记开头和结尾。

    • 获取标签的名字:
      tag.name
    • 获取标签的属性:
      tag.attrs  # 返回一个字典,包含标签的属性信息
    • 获取标签内的非属性字符串:
      tag.string
    • 获取标签的父标签:
      tag.parent

    3.2.2 标签的属性

    标签的属性以字典形式存储,例如:

    print(tag.attrs)  # 输出字典形式的属性

    你也可以通过键值对直接获取特定属性:

    print(tag.attrs['href'])  # 获取名为`href`的属性

    3.2.3 导航字符串(NavigableString)

    标签内的非属性字符串可以通过以下方式获取:

    print(soup.find('p').string)  # 获取`

    `标签内的非属性字符串

    此外,NavigableString类型支持跨层次查找,例如:

    print(soup.find('a').find_all('p').string)  # 获取``标签下的所有`

    `标签的非属性字符串

    3.2.4 注释(Comment)

    标签内的注释可以通过以下方式获取:

    comment = tag.find_all(string=lambda x: type(x) is Comment)[0]print(comment.string)

    3.3 查看类型

    为了更好地理解标签的类型,可以使用type()函数:

    • 检查属性类型:
      print(type(tag.attrs))  # 输出`
      `
    • 检查标签类型:
      print(type(tag))  # 输出`
      `

    3.4 实际案例

    以下代码展示了如何解析和提取HTML内容:

    from bs4 import BeautifulSoupimport requestsresponse = requests.get("https://example.com")html_content = response.textsoup = BeautifulSoup(html_content, "html.parser")# 获取``标签的内容title = soup.find("title")print(title.string)  # 输出`<title>这是一个示例页面`# 获取``标签的属性link = soup.find("a")print(link.attrs)  # 输出字典形式的属性# 获取`

    `标签内的非属性字符串paragraph = soup.find("p")print(paragraph.string) # 输出`

    这是一个段落内容

    `

    总结

    BeautifulSoup库通过其强大的标签树解析能力,能够轻松提取HTML文档中的结构化信息。通过合理使用find()find_all()等方法,可以高效地完成网页信息提取和解析任务。

    转载地址:http://axzh.baihongyu.com/

    你可能感兴趣的文章
    mysql基础---mysql查询机制
    查看>>
    MySQL基础5
    查看>>
    MySQL基础day07_mysql集群实例-MySQL 5.6
    查看>>
    Mysql基础命令 —— 数据库、数据表操作
    查看>>
    Mysql基础命令 —— 系统操作命令
    查看>>
    MySQL基础学习总结
    查看>>
    mysql基础教程三 —常见函数
    查看>>
    mysql基础教程二
    查看>>
    mysql基础教程四 --连接查询
    查看>>
    MySQL基础知识:创建MySQL数据库和表
    查看>>
    MySQL基础系列—SQL分类之一
    查看>>
    MySQL处理千万级数据分页查询的优化方案
    查看>>
    mysql备份
    查看>>
    mysql备份与恢复
    查看>>
    mysql备份工具xtrabackup
    查看>>
    mysql备份恢复出错_尝试备份/恢复mysql数据库时出错
    查看>>
    mysql复制内容到一张新表
    查看>>
    mysql复制表结构和数据
    查看>>
    mysql复杂查询,优质题目
    查看>>
    MySQL外键约束
    查看>>