备案控制台

开发者社区

开发者社区大数据文章正文

Python网络爬虫之urllib2的使用细节与抓站技巧

2018-01-14 897

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 某些网站反感爬虫的到访，于是对爬虫一律拒绝请求,这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现一、伪装成浏览器访问+表单data的处理示例1二、获取访问Cookie的值示例2三、Proxy的设置及Timeout 设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求,这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现

一、伪装成浏览器访问+表单data的处理

示例1

二、获取访问Cookie的值

示例2

三、Proxy的设置及Timeout 设置

urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响，那么可以使用如下代理操作

示例3

四、使用 urllib2时打开Debug Log模式

debug Log 的打开，这样收发包的内容就会在屏幕上打印出来，方便调试，有时可以省去抓包的工作，这样就可以看到传输的数据包内容了。

示例4

五、对付"反盗链"

某些站点有所谓的反盗链设置，其实说穿了很简单，就是检查你发送请求的header里面，referer站点是不是他自己，所以我们只需要像把headers的referer改成该网站即可，以cnbeta为例：headers是一个dict数据结构，你可以放入任何想要的header，来做一些伪装。例如，有些网站喜欢读取header中的X-Forwarded-For来看看人家的真实IP，可以直接把X-Forwarde-For改了

示例5

资料来源：感谢汪童鞋的分享

文章标签：

Python

数据采集

关键词：

Python网络

爬虫python

Python爬虫

Python urllib

Python网络爬虫

keitwotest

目录

相关文章

桃李春风一杯酒

|

14天前

|

数据采集存储 API

网络爬虫与数据采集：使用Python自动化获取网页数据

【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识，包括网络爬虫概念（请求网页、解析、存储数据和处理异常）和Python常用的爬虫库requests（发送HTTP请求）与BeautifulSoup（解析HTML）。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用，如获取新闻数据和商品信息。

桃李春风一杯酒

34 2 2

4as3qn2go3ure

|

3天前

|

机器学习/深度学习算法算法框架/工具

数据分享|PYTHON用KERAS的LSTM神经网络进行时间序列预测天然气价格例子

数据分享|PYTHON用KERAS的LSTM神经网络进行时间序列预测天然气价格例子

4as3qn2go3ure

23 0 0

4as3qn2go3ure

|

1天前

|

机器学习/深度学习存储监控

数据分享|Python卷积神经网络CNN身份识别图像处理在疫情防控下口罩识别、人脸识别

数据分享|Python卷积神经网络CNN身份识别图像处理在疫情防控下口罩识别、人脸识别

4as3qn2go3ure

8 0 0

Lêvï

|

2天前

|

存储网络协议关系型数据库

Python从入门到精通：2.3.2数据库操作与网络编程——学习socket编程，实现简单的TCP/UDP通信

Python从入门到精通：2.3.2数据库操作与网络编程——学习socket编程，实现简单的TCP/UDP通信

Lêvï

14 0 0

4as3qn2go3ure

|

2天前

|

机器学习/深度学习算法 Python

Python用RNN神经网络：LSTM、GRU、回归和ARIMA对COVID19新冠疫情人数时间序列预测

Python用RNN神经网络：LSTM、GRU、回归和ARIMA对COVID19新冠疫情人数时间序列预测

4as3qn2go3ure

47 12 14

长梦

|

4天前

|

数据采集存储 JSON

Python爬虫面试：requests、BeautifulSoup与Scrapy详解

【4月更文挑战第19天】本文聚焦于Python爬虫面试中的核心库——requests、BeautifulSoup和Scrapy。讲解了它们的常见问题、易错点及应对策略。对于requests，强调了异常处理、代理设置和请求重试；BeautifulSoup部分提到选择器使用、动态内容处理和解析效率优化；而Scrapy则关注项目架构、数据存储和分布式爬虫。通过实例代码，帮助读者深化理解并提升面试表现。

长梦

13 0 0

1941623231718325

|

7天前

|

数据采集 JavaScript 前端开发

使用Python打造爬虫程序之破茧而出：Python爬虫遭遇反爬虫机制及应对策略

【4月更文挑战第19天】本文探讨了Python爬虫应对反爬虫机制的策略。常见的反爬虫机制包括User-Agent检测、IP限制、动态加载内容、验证码验证和Cookie跟踪。应对策略包括设置合理User-Agent、使用代理IP、处理动态加载内容、验证码识别及维护Cookie。此外，还提到高级策略如降低请求频率、模拟人类行为、分布式爬虫和学习网站规则。开发者需不断学习新策略，同时遵守规则和法律法规，确保爬虫的稳定性和合法性。

1941623231718325

15 1 1

4as3qn2go3ure

|

8天前

|

机器学习/深度学习 Python

Python用LSTM长短期记忆神经网络对不稳定降雨量时间序列进行预测分析

Python用LSTM长短期记忆神经网络对不稳定降雨量时间序列进行预测分析

4as3qn2go3ure

19 0 0

长梦

|

8天前

|

JSON 网络协议 API

Python网络编程面试题精讲

【4月更文挑战第15天】本文介绍了Python网络编程的面试重点，包括基础Socket编程、HTTP协议与requests库、异步编程与asyncio库。通过实例解析常见面试题，强调了非阻塞套接字、异常处理、HTTP状态码检查以及异步任务管理等关键点。提供代码示例帮助读者巩固概念，助力面试准备。

长梦

15 0 0

4as3qn2go3ure

|

9天前

|

机器学习/深度学习存储测试技术

使用PYTHON中KERAS的LSTM递归神经网络进行时间序列预测

使用PYTHON中KERAS的LSTM递归神经网络进行时间序列预测

4as3qn2go3ure

19 0 0

热门文章

最新文章

网络爬虫与数据采集：使用Python自动化获取网页数据

Rust高级爬虫：如何利用Rust抓取精美图片

掌握 C# 爬虫技术：使用 HttpClient 获取今日头条内容

python并发编程:Python实现生产者消费者爬虫

畅游网络：构建C++网络爬虫的指南

【python】爬虫-西安医学院-校长信箱

简单描述一下爬虫的工作原理。

Python爬虫如何快速入门

阿里云 MaxCompute MaxFrame 开启免费邀测，统一 Python 开发生态

使用Python实现DBSCAN聚类算法

Python中的装饰器：概念、用法和实例

Python中的装饰器：概念、用法及实例

使用Python实现图像处理中的边缘检测算法

Python中如何实现字符串反转？请提供至少两种方法。

在Python中，如何创建一个迭代器？

请解释Python中的迭代器和生成器的区别？并分别举例说明。

在Python中，如何使用装饰器重写类的方法？

Python中的装饰器：概念、用法及实例

Python中的装饰器：概念、应用与实例

Python中的装饰器：概念、用法和实例

相关课程

更多

Python语言基础 - 函数、面向对象、异常处理

Python Web 框架 Flask 快速入门

Python Web开发基础

Python爬虫实战

Python开发基础入门

Python网络爬虫实战

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

Python新手入门

Python入门

Python选择及循环结构

Python新手入门（Anolis OS）

容器的网络入门

容器的自定义网络

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）