博客
关于我
Python网络爬虫入门版笔记 五、BeautifulSoup库的介绍和基本使用
阅读量:391 次
发布时间:2019-03-04

本文共 2211 字,大约阅读时间需要 7 分钟。

一、BeautifulSoup库简介

BeautifulSoup是一个非常优秀的Python第三方库,能够对HTML、XML等格式进行解析,并提取相关信息。它的作用类似于将一锅汤熬制出来,即对文档进行解析和提取信息。BeautifulSoup4(简称bs4)是该库的最新版本。

安装方法

在命令行界面中使用pip进行安装,例如:

pip install beautifulsoup4

安装完成后,可以直接使用BeautifulSoup库进行操作。


二、BeautifulSoup的简单演示

获取HTML源代码

想要获取某个HTML页面的源代码,有两种主要方式:

  • 使用浏览器右键查看页面源码。
  • 使用爬虫工具自动爬取。
  • 以下代码示例展示了如何使用BeautifulSoup库获取和解析HTML内容:

    from bs4 import BeautifulSoupimport requests# 发送请求获取HTML内容response = requests.get("https://example.com")html_content = response.text# 使用BeautifulSoup解析HTML内容soup = BeautifulSoup(html_content, "html.parser")# 打印解析结果print(soup.prettify())  # 格式化输出

    执行上述代码,如果能看到HTML的标准格式输出,则说明BeautifulSoup库安装成功。


    三、BeautifulSoup库的基本元素

    1.1 理解BeautifulSoup类

    BeautifulSoup类是处理HTML标签树的核心类。一个HTML文件由多个标签对(Tag)组成,这些标签形成一个树状结构。BeautifulSoup类可以理解为对标签树的维护和操作工具。

    1.2 创建BeautifulSoup对象

    BeautifulSoup对象的创建方式如下:

    soup = BeautifulSoup(html_content, "html.parser")
    • html_content:待解析的HTML内容。
    • "html.parser":指定使用HTML解析器。

    3.2 BeautifulSoup类的基本元素

    3.2.1 标签(Tag)

    标签是信息组织的基本单元,使用<tag></tag>标记开头和结尾。

    • 获取标签的名字:
      tag.name
    • 获取标签的属性:
      tag.attrs  # 返回一个字典,包含标签的属性信息
    • 获取标签内的非属性字符串:
      tag.string
    • 获取标签的父标签:
      tag.parent

    3.2.2 标签的属性

    标签的属性以字典形式存储,例如:

    print(tag.attrs)  # 输出字典形式的属性

    你也可以通过键值对直接获取特定属性:

    print(tag.attrs['href'])  # 获取名为`href`的属性

    3.2.3 导航字符串(NavigableString)

    标签内的非属性字符串可以通过以下方式获取:

    print(soup.find('p').string)  # 获取`

    `标签内的非属性字符串

    此外,NavigableString类型支持跨层次查找,例如:

    print(soup.find('a').find_all('p').string)  # 获取``标签下的所有`

    `标签的非属性字符串

    3.2.4 注释(Comment)

    标签内的注释可以通过以下方式获取:

    comment = tag.find_all(string=lambda x: type(x) is Comment)[0]print(comment.string)

    3.3 查看类型

    为了更好地理解标签的类型,可以使用type()函数:

    • 检查属性类型:
      print(type(tag.attrs))  # 输出`
      `
    • 检查标签类型:
      print(type(tag))  # 输出`
      `

    3.4 实际案例

    以下代码展示了如何解析和提取HTML内容:

    from bs4 import BeautifulSoupimport requestsresponse = requests.get("https://example.com")html_content = response.textsoup = BeautifulSoup(html_content, "html.parser")# 获取``标签的内容title = soup.find("title")print(title.string)  # 输出`<title>这是一个示例页面`# 获取``标签的属性link = soup.find("a")print(link.attrs)  # 输出字典形式的属性# 获取`

    `标签内的非属性字符串paragraph = soup.find("p")print(paragraph.string) # 输出`

    这是一个段落内容

    `

    总结

    BeautifulSoup库通过其强大的标签树解析能力,能够轻松提取HTML文档中的结构化信息。通过合理使用find()find_all()等方法,可以高效地完成网页信息提取和解析任务。

    转载地址:http://axzh.baihongyu.com/

    你可能感兴趣的文章
    PHP:第一章——PHP中常量和预定义常量
    查看>>
    PHP:第一章——PHP中的位运算
    查看>>
    phpcms
    查看>>
    phpcms 2008 product.php pagesize参数代码注射漏洞
    查看>>
    phpcms V9 自定义添加 全局变量{DIY_PATH}方法
    查看>>
    Redis五种核心数据结构的基本使用与应用场景
    查看>>
    Redis五种数据结构简介
    查看>>
    PHPCMS多文件上传和上传数量限制
    查看>>
    phpEnv的PHP集成环境
    查看>>
    PHPExcel一些基本设置总结
    查看>>
    phpexcel中文手册
    查看>>
    PHPExcel导入导出 若在thinkPHP3.2中使用(无论实例还是静态调用(如new classname或classname::function)都必须加反斜杠,因3.2就命名空间,如/c...
    查看>>
    phpize及其用法
    查看>>
    phpMailer发送邮件
    查看>>
    PHPMailer发送邮件
    查看>>
    phpmailer发送邮件,可以带附件
    查看>>
    phpmailer的用法
    查看>>
    phpMQTT
    查看>>
    phpmyadmin 安装
    查看>>
    phpmyadmin导出数据库出现Fatal error: Cannot 'break' 2 levels in D:\phpstudy\WWW\phpMyAdmin
    查看>>