python爬虫——爬取网页中的图片（正则表达式）

爬取网站：站长之家网址：辞旧迎新，字体超市携各品牌字体一起来送虎年祝福啦！#import requestsimport reimport osif __name__ == '__main__':# 创建一个文件夹，用于保存所有的图片if not os.path.exists('./hunian'):os.mkdir('./hunian')headers = {'User-Agent':'Mozil

柿子镭

1658人浏览 · 2022-01-26 14:35:28

柿子镭 · 2022-01-26 14:35:28 发布

爬取网站：站长之家

网址：辞旧迎新，字体超市携各品牌字体一起来送虎年祝福啦！

#
import requests
import re
import os

if __name__ == '__main__':
   # 创建一个文件夹，用于保存所有的图片
   if not os.path.exists('./hunian'):
      os.mkdir('./hunian')
   headers = {
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36 Edg/97.0.1072.69'
   }
   # 使用通用爬虫对url对应的一整张页面进行爬取
   url = 'https://www.chinaz.com/2022/0125/1358630.shtml'
   page_text = requests.get(url, headers).text
   # 使用聚焦爬虫将页面中所有的图片进行解析、提取
   #ex = '<p style = "text-align:center"class ="article-content__img">.*?<img src="(.*?)" title.*? alt.*?</p>'
   ex = '<img src="(.*?)"'
   img_src_list = re.findall(ex,page_text,re.S)   # re.S 使.匹配换行在内的所有字符
   print(img_src_list)
   for src in img_src_list[1:]:
      img_data = requests.get(url=src,headers=headers).content
      # 生成图片名称
      img_name = src.split('/')[-1]
      img_path = './hunian/'+img_name
      with open(img_path,'wb') as fp:
         fp.write(img_data)
         print('ok')

获取图片成功！

放两张图，祝大家虎年吉祥，虎虎生威

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐