爬虫关键

用到的标准库:

BeautifulSoup

1、Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据

供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据

python beautiful soup库的超详细用法_beautifulsoup用法-CSDN博客 详细参考这个博主的

2、可以利用 pip 或者 easy_install 来安装,以下两种方法均可

  1. easy_install beautifulsoup4

  2. pip install beautifulsoup4

3、然后需要安装 lxml

  1. easy_install lxml

  2. pip install lxml

4、另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib:


  1. easy_install html5lib

  2. pip install html5lib

 

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐