备案控制台

开发者社区

开发者社区开发与运维文章正文

Python 爬取糗事百科段子

2018-08-31 1140

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： #!/usr/bin/python# -*- coding:utf-8 -*-import urllibimport urllib2import reimport sysreload(sys)sys.

#!/usr/bin/python
# -*- coding:utf-8 -*-
import urllib
import urllib2
import re
import sys
reload(sys)
sys.setdefaultencoding('utf8') 

page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
headers = {'User-Agent':user_agent}
try:
    request = urllib2.Request(url,headers = headers)
    response  = urllib2.urlopen(request)
   # print response.read()
 
    ######_match_ string
 
    content = response.read().decode('utf-8')
    # 其中 （.*?）为匹配的内容
    # 如果对正则不是很熟的同学，可以参考以下： 
    # 1. “.”是通配符，”*”表示匹配0次或任意次，”?”表示非贪婪匹配，.*?组合在一起则表示尽可能短地做匹配。 
    # 2. (.*?)代表一个分组，或者说一个捕获组。 
    # 3. re.S 标志代表在匹配时为点任意匹配模式，点 . 也可以代表换行符。 
    pattern = re.compile(r'<div.*?author clearfix".*?<img.*?<h2>(.*?)</h2>.*?<div.*?'+
                         'content">.*?<span>(.*?)</span>.*?<div class="stats.*?class="number">(.*?)</i>',re.S)
    items = re.findall(pattern,content)
    # print("%s"%items)
    for item in items:
        print("auther:%s"%item[0])
        print("content:%s"%item[1])
        print("likes:%s\n"%item[2])
 
except urllib2.URLError,e:
    if hasattr(e,'code'):
        print e.code
    if hasattr(e,'reaon'):
        print e.reason

文章标签：

Python

Windows

iOS开发

Web App开发

关键词：

Python爬取

凌浩雨

目录

相关文章

仲君Johnny

|

1月前

|

数据采集 JSON 数据格式

python爬虫之app爬取-charles的使用

charles 基本原理，charles抓包，分析，重发。

仲君Johnny

53 0 0

金牛座Tina15579030501

|

2月前

|

数据采集存储架构师

上进计划 | Python爬虫经典实战项目——电商数据爬取！

在如今这个网购风云从不间歇的时代，购物狂欢持续不断，一年一度的“6.18年中大促”、“11.11购物节”等等成为了网购电商平台的盛宴。在买买买的同时，“如何省钱？”成为了大家最关心的问题。比价、返利、优惠券都是消费者在网购时的刚需，但在这些“优惠”背后已产生灰色地带。

金牛座Tina15579030501

64 2 2

Python编程

|

4月前

|

数据采集 Python

Python爬虫：实现爬取、下载网站数据的几种方法

Python爬虫：实现爬取、下载网站数据的几种方法

Python编程

200 1 2

仲君Johnny

|

1月前

|

数据采集测试技术 API

python爬虫之app爬取-微信朋友圈

搭建appium环境，appium基本使用，API操作等等

仲君Johnny

77 0 0

TesterMuller

|

1月前

|

数据采集存储数据处理

使用Python爬取豆瓣电影影评：从数据收集到情感分析

本文演示如何使用Python爬虫获取豆瓣电影《肖申克的救赎》的影评数据并进行情感分析。首先，安装requests、BeautifulSoup、pandas和TextBlob库。接着，编写爬虫抓取评论的用户名、评分和内容，存储为DataFrame。然后，利用TextBlob进行情感分析，得到情感分数。此方法有助于分析用户对电影的反馈。

TesterMuller

81 1 1

仲君Johnny

|

1月前

|

数据采集存储安全

python爬虫之app爬取-mitmproxy 的使用

mitmproxy抓包原理，设置代理，MitmDump运用，mitmproxy使用。

仲君Johnny

38 0 0

游客762btuqu5wybw666

|

1月前

|

数据采集存储数据挖掘

Python爬虫实战：打造一个简单的新闻网站数据爬取工具

本文将介绍如何运用Python编写一个简单而高效的网络爬虫，帮助您在实际项目中快速获取并存储新闻网站的数据。通过学习本文，您将了解到如何利用Python中的第三方库和技术来实现数据爬取，为您的数据分析和应用提供更多可能性。

游客762btuqu5wybw666

69 2 2

仲君Johnny

|

2月前

|

数据采集前端开发 JavaScript

Python爬虫之Ajax数据爬取基本原理#6

Ajax数据爬取原理【2月更文挑战第19天】

仲君Johnny

32 1 1

Python爬虫之Ajax数据爬取基本原理#6

小白学大数据

|

3月前

|

数据采集 Linux API

Python爬虫实践指南：利用cpr库爬取技巧

Python爬虫实践指南：利用cpr库爬取技巧

小白学大数据

41 0 0

HannYang

|

3月前

|

Python Go 机器人

Golang每日一练(leetDay0021) 旋转链表、不同路径、不同路径II

Golang每日一练(leetDay0021) 旋转链表、不同路径、不同路径II

HannYang

32 0 0

Golang每日一练(leetDay0021) 旋转链表、不同路径、不同路径II

热门文章

最新文章

阿里云 MaxCompute MaxFrame 开启免费邀测，统一 Python 开发生态

使用Python实现DBSCAN聚类算法

在Python Web开发过程中：数据库与缓存，MySQL和NoSQL数据库的主要差异是什么？

流畅的 Python 第二版（GPT 重译）（一）(1)

【Python】python天气数据抓取与数据分析（源码+论文）【独一无二】

Python 学习之路 01基础入门---【Python安装，Python程序基本组成】

流畅的 Python 第二版（GPT 重译）（十一）(1)

Python 数据分析（PYDA）第三版（三）（1）

Python函数使用(四)

Python速成篇（基础语法）上

Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型

Python用RNN神经网络：LSTM、GRU、回归和ARIMA对COVID19新冠疫情人数时间序列预测

PYTHON用时变马尔可夫区制转换（MARKOV REGIME SWITCHING）自回归模型分析经济时间序列

数据分享|Python决策树、随机森林、朴素贝叶斯、KNN（K-最近邻居）分类分析银行拉新活动挖掘潜在贷款客户

Python监控主机是否存活,并发报警邮件

【Python实用技能】建议收藏：自动化实现网页内容转PDF并保存的方法探索（含代码，亲测可用）

Python 妙用运算符重载——玩出“点”花样来（上）

python 教你如何创建一个自定义库 colorlib.py

Python 一步一步教你用pyglet制作汉诺塔游戏

Python变量类型

相关课程

更多

Python语言基础 - 语法入门

Python网络编程

Python Web开发基础

Python爬虫实战

Python开发基础入门

Python常用数据科学库

相关电子书

更多

Improving Python and Spark Per

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

相关实验场景

更多

Python新手入门

Python入门

Python选择及循环结构

Python新手入门（Anolis OS）

Python网络通信程序典型应用

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）