爬取网站:站长之家

网址:辞旧迎新,字体超市携各品牌字体一起来送虎年祝福啦!

#
import requests
import re
import os

if __name__ == '__main__':
   # 创建一个文件夹,用于保存所有的图片
   if not os.path.exists('./hunian'):
      os.mkdir('./hunian')
   headers = {
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36 Edg/97.0.1072.69'
   }
   # 使用通用爬虫对url对应的一整张页面进行爬取
   url = 'https://www.chinaz.com/2022/0125/1358630.shtml'
   page_text = requests.get(url, headers).text
   # 使用聚焦爬虫将页面中所有的图片进行解析、提取
   #ex = '<p style = "text-align:center"class ="article-content__img">.*?<img src="(.*?)" title.*? alt.*?</p>'
   ex = '<img src="(.*?)"'
   img_src_list = re.findall(ex,page_text,re.S)   # re.S 使.匹配换行在内的所有字符
   print(img_src_list)
   for src in img_src_list[1:]:
      img_data = requests.get(url=src,headers=headers).content
      # 生成图片名称
      img_name = src.split('/')[-1]
      img_path = './hunian/'+img_name
      with open(img_path,'wb') as fp:
         fp.write(img_data)
         print('ok')

获取图片成功!

放两张图,祝大家虎年吉祥,虎虎生威

   

 

 

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐