Python爬虫，用第三方库解决下载网页中文本的问题

2018-06-26 1195

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 还在辛辛苦苦的查找网页规律，写正则或者其他方式去匹配文本内容吗？还在纠结怎么去除小说网站的其他字符吗？先来看看下面2张图，都是某小说网站的小说内容怎么样，是不是很简洁！这就是今天给大家介绍的库，newspaper库！newspaperpython3.

Python爬虫，用第三方库解决下载网页中文本的问题

还在辛辛苦苦的查找网页规律，写正则或者其他方式去匹配文本内容吗？还在纠结怎么去除小说网站的其他字符吗？

先来看看下面2张图，都是某小说网站的小说内容

Python爬虫，用第三方库解决下载网页中文本的问题

怎么样，是不是很简洁！这就是今天给大家介绍的库，newspaper库！

newspaper

python3.x安装: pip install newspaper3k

python2.7安装: pip install newspaper

简单的给大家说说它的功能:

首先是获取网页所有url的功能，我们以sina新闻为例子，写代码如下：

python直播学习群542110741

看，这就把新浪新闻主页的所有url链接抓到了，是不是很快捷!（当然结果还是需要各种筛选）

提取网页所有文本内容，这次我们随便找个新闻来试试！

Python爬虫，用第三方库解决下载网页中文本的问题

是不是很方便~！！而且这个对小说网站依然有效（还记得开始的图吗？）！！大家可以去试试。

当然，这个库还有其他很多的功能，这里就不一一说明了，大家可以自行去摸索哦！

最后

这是一个非常不错的库，适合用来写爬虫，如有不懂的地方我在评论区等着你，关注一下，与你共享更多有用的知识。大家加油！

参考来源：https://github.com/codelucas/newspaper