HTML 解析之 BeautifulSoup

BeautifulSoup 是 Python 中用于解析HTML和XML文档的强大库，提供了方便的API和丰富的功能，可帮助开发者轻松地从网页中提取所需的数据。本文将介绍 BeautifulSoup 的基本用法、常见功能和实际应用，帮助读者深入了解如何利用 BeautifulSoup 进行HTML解析，从而提高数据处理和信息提取的效率和准确性。BeautifulSoup 支持通过标签选择器来定位H

非著名程序员阿强

992人浏览 · 2024-02-17 21:45:00

非著名程序员阿强 · 2024-02-17 21:45:00 发布

在网页数据采集、信息提取等应用场景中，对HTML文档进行解析是一项至关重要的任务。BeautifulSoup 是 Python 中用于解析HTML和XML文档的强大库，提供了方便的API和丰富的功能，可帮助开发者轻松地从网页中提取所需的数据。本文将介绍 BeautifulSoup 的基本用法、常见功能和实际应用，帮助读者深入了解如何利用 BeautifulSoup 进行HTML解析，从而提高数据处理和信息提取的效率和准确性。

一、基本用法

1.1 安装和导入

要使用 BeautifulSoup 库，首先需要安装该库。可以使用 pip 工具进行安装：

pip install beautifulsoup4

安装完成后，可以通过以下方式导入 BeautifulSoup：

from bs4 import BeautifulSoup

1.2 创建 BeautifulSoup 对象

通过将HTML文档传递给 BeautifulSoup 构造函数，即可创建一个 BeautifulSoup 对象，用于后续的解析和操作：

html_doc = """

<html><head><title>示例网页</title></head>

<body>

<p class="title"><b>示例页面内容</b></p>

<p class="content">这是一个示例网页。</p>

</body></html>

soup = BeautifulSoup(html_doc, 'html.parser')

二、常见功能

2.1 标签选择器

BeautifulSoup 支持通过标签选择器来定位HTML文档中的标签，从而提取所需信息。以下是标签选择器的常见用法：

# 选择第一个 title 标签

title = soup.title

# 选择所有的 p 标签

paragraphs = soup.find_all('p')

2.2 数据提取

通过 BeautifulSoup，可以方便地提取标签的文本内容、属性信息等：

# 提取标签文本内容

title_text = title.get_text()

# 提取标签属性

p_class = paragraphs[0]['class']

2.3 CSS 选择器

除了标签选择器外，BeautifulSoup 还支持类似 CSS 选择器的语法，用于定位HTML文档中的元素：

# 通过 CSS 选择器选择标签

content = soup.select('.content')

# 通过 CSS 选择器选择子标签

title_b = soup.select('p.title b')

2.4 数据修改

除了提取数据外，BeautifulSoup 也支持对HTML文档进行修改和操作，如新增、删除标签等：

# 新增一个 p 标签

new_paragraph = soup.new_tag('p')

new_paragraph.string = '新增的段落'

soup.body.append(new_paragraph)

# 删除指定的标签

title_b.extract()

不知道人工智能如何学习？不知道单片机如何运作？不知道嵌入式究竟是何方神圣？搞不清楚什么是物联网？遇到问题无人可问？来我的绿泡泡交流群吧！里面有丰富的人工智能资料，帮助你自主学习人工智能相关内容，不论是基础的Python教程、OpenCV教程以及机器学习等，都可以在群中找到；单片机毕设项目、单片机从入门到高阶的详细解读、单片机的一系列资料也备好放入群中！关于嵌入式，我这里不仅仅有嵌入式相关书籍的电子版本，更是有丰富的嵌入式学习资料，100G stm32综合项目实战提升包，70G 全网最全嵌入式&物联网资料包，嵌入式面试、笔试的资料，物联网操作系统FreeRTOS课件源码！群内高手云集，各位大佬能够为您排忧解难，让您在学习的过程中如虎添翼！扫码进群即可拥有这一切！还在等什么？赶快拿起手机，加入群聊吧！二维码详情

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐