妈妈再也不用担心爬虫被封号了!手把手教你搭建Cookies池

技术小能手 2018-11-08

模块 random 配置 测试 HASH 存储

很多时候,在爬取没有登录的情况下,我们也可以访问一部分页面或请求一些接口,因为毕竟网站本身需要做SEO,不会对所有页面都设置登录限制。

但是,不登录直接爬取会有一些弊端,弊端主要有以下两点。

 ●  设置了登录限制的页面无法爬取。如某论坛设置了登录才可查看资源,某博客设置了登录才可查看全文等,这些页面都需要登录账号才可以查看和爬取。
 ●  一些页面和接口虽然可以直接请求,但是请求一旦频繁,访问就容易被限制或者IP直接被封,但是登录之后就不会出现这样的问题,因此登录之后被反爬的可能性更低。

下面我们就第二种情况做一个简单的实验。以微博为例,我们先找到一个Ajax接口,例如新浪财经官方微博的信息接口https://m.weibo.cn/api/container/getIndex?uid=1638782947&luicode=200






登录 后评论
下一篇
云攻略小攻
422人浏览
2019-10-21
相关推荐
教你如何教育你的猫咪
693人浏览
2017-10-09 10:12:00
1
2
0
1033