python爬虫——爬取网页中的图片(正则表达式)
爬取网站:站长之家网址:辞旧迎新,字体超市携各品牌字体一起来送虎年祝福啦!#import requestsimport reimport osif __name__ == '__main__':# 创建一个文件夹,用于保存所有的图片if not os.path.exists('./hunian'):os.mkdir('./hunian')headers = {'User-Agent':'Mozil
·
爬取网站:站长之家
#
import requests
import re
import os
if __name__ == '__main__':
# 创建一个文件夹,用于保存所有的图片
if not os.path.exists('./hunian'):
os.mkdir('./hunian')
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36 Edg/97.0.1072.69'
}
# 使用通用爬虫对url对应的一整张页面进行爬取
url = 'https://www.chinaz.com/2022/0125/1358630.shtml'
page_text = requests.get(url, headers).text
# 使用聚焦爬虫将页面中所有的图片进行解析、提取
#ex = '<p style = "text-align:center"class ="article-content__img">.*?<img src="(.*?)" title.*? alt.*?</p>'
ex = '<img src="(.*?)"'
img_src_list = re.findall(ex,page_text,re.S) # re.S 使.匹配换行在内的所有字符
print(img_src_list)
for src in img_src_list[1:]:
img_data = requests.get(url=src,headers=headers).content
# 生成图片名称
img_name = src.split('/')[-1]
img_path = './hunian/'+img_name
with open(img_path,'wb') as fp:
fp.write(img_data)
print('ok')
获取图片成功!
放两张图,祝大家虎年吉祥,虎虎生威

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)