Python2 抓取百度贴吧图片

简介:

    我这里抓取的百度贴吧的地址是http://tieba.baidu.com/p/2460150866?pn=1。以下是源码,使用的是python2。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
import  re             #导入正则模块
import  urllib         #导入url库模块
 
#抓取页面的源码
def  getHtml(url):
     page  =  urllib.urlopen(url)        #打开指定的URL
     html  =  page.read()                #读取URL的内容并保存
     return  html                       #函数返回读取的内容
 
#下载源码中指定的图片    
def  getImg(html):
     reg  =  r 'src="(.+?\.jpg)" pic_ext'         
     imgre  =  re. compile (reg)
     imglist  =  imgre.findall(html)
     =  0
     for  imgurl  in  imglist:
         print (imgurl)
         #下载图片到指定的目录,并且重新命名
         urllib.urlretrieve(imgurl,r 'C:\Users\Water\PycharmProjects\test\image\%s-%s.jpg'  %  (i,x))
         =  +  1
 
#循环抓取所有的页面        
=  1
while  i <  74 :                 #贴吧共有74页评论
     html  =  getHtml( "http://tieba.baidu.com/p/2460150866?pn="  +  str (i))
     getImg(html)
     i + = 1
     print (i)


    下面是抓取的结果

wKioL1deaWDhCvxCAAR4fZV-LsI094.jpg




     本文转自 wzlinux 51CTO博客,原文链接:http://blog.51cto.com/wzlinux/1788735,如需转载请自行联系原作者






相关文章
|
1月前
|
数据采集 Python
爬虫实战-Python爬取百度当天热搜内容
爬虫实战-Python爬取百度当天热搜内容
70 0
|
1月前
|
缓存 API 定位技术
使用Python调用百度地图API实现地址查询
使用Python调用百度地图API实现地址查询
100 0
|
1月前
|
数据挖掘 数据安全/隐私保护 开发者
使用Spire.PDF for Python插件从PDF文件提取文字和图片信息
使用Spire.PDF for Python插件从PDF文件提取文字和图片信息
75 0
|
1月前
|
存储 缓存 Python
如何使用Python抓取PDF文件并自动下载到本地
如何使用Python抓取PDF文件并自动下载到本地
34 0
|
1月前
|
数据安全/隐私保护 Python
Python3给图片添加水印
Python3给图片添加水印
61 1
|
2月前
|
数据采集 前端开发 JavaScript
利用 Python 抓取数据探索汽车市场趋势
利用 Python 抓取数据探索汽车市场趋势
|
2月前
|
数据采集 数据可视化 数据挖掘
Python爬虫实战:抓取网站数据并生成报表
本文将介绍如何使用Python编写简单而高效的网络爬虫,从指定的网站上抓取数据,并利用数据分析库生成可视化报表。通过学习本文内容,读者将能够掌握基本的爬虫技术和数据处理方法,为日后开发更复杂的数据采集与分析工具打下坚实基础。
|
1月前
|
存储 移动开发 算法
Python怎么将图片转换成base64编码
Python怎么将图片转换成base64编码
27 0
|
7天前
|
机器学习/深度学习 算法 自动驾驶
opencv python 图片叠加
【4月更文挑战第17天】
|
12天前
|
开发者 索引 Python
实践:如何使用python在网页的表格里抓取信息
实践:如何使用python在网页的表格里抓取信息

热门文章

最新文章