python网络爬虫(14)使用Scrapy搭建爬虫框架

简介: python网络爬虫(14)使用Scrapy搭建爬虫框架阅读目录目的意义说明创建scrapy工程一些介绍说明创建爬虫模块-下载强化爬虫模块-解析强化爬虫模块-包装数据强化爬虫模块-翻页强化爬虫模块-存储强化爬虫模块-图像下载保存启动爬虫修正目的意义爬虫框架也许能简化工作量,提高效率等。

python网络爬虫(14)使用Scrapy搭建爬虫框架
阅读目录

目的意义
说明
创建scrapy工程
一些介绍说明
创建爬虫模块-下载
强化爬虫模块-解析
强化爬虫模块-包装数据
强化爬虫模块-翻页
强化爬虫模块-存储
强化爬虫模块-图像下载保存
启动爬虫
修正
目的意义
爬虫框架也许能简化工作量,提高效率等。scrapy是一款方便好用,拓展方便的框架。

本文将使用scrapy框架,示例爬取自己博客中的文章内容。

说明
学习和模仿来源:https://book.douban.com/subject/27061630/

创建scrapy工程
首先当然要确定好,有没有完成安装scrapy。在windows下,使用pip install scrapy,慢慢等所有依赖和scrapy安装完毕即可。然后输入scrapy到cmd中测试。

建立工程使用scrapy startproject myTestProject,会在工程下生成文件。

一些介绍说明
在生成的文件中,

创建爬虫模块-下载
在路径./myTestProject/spiders下,放置用户自定义爬虫模块,并定义好name,start_urls,parse()。

如在spiders目录下建立文件CnblogSpider.py,并填入以下:

1
2
3
4
5
6
import scrapy
class CnblogsSpider(scrapy.Spider):

name="cnblogs"
start_urls=["https://www.cnblogs.com/bai2018/default.html?page=1"]
def parse(self,response):
    pass

在cmd中,切换到./myTestProject/myTestProject下,再执行scrapy crawl cnblogs(name)测试,观察是否报错,响应代码是否为200。其中的parse中参数response用于解析数据,读取数据等。

强化爬虫模块-解析
在CnblogsSpider类中的parse方法下,添加解析功能。通过xpath、css、extract、re等方法,完成解析。

调取元素审查分析以后添加,成为以下代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
import scrapy
class CnblogsSpider(scrapy.Spider):

name="cnblogs"
start_urls=["https://www.cnblogs.com/bai2018/"]
def parse(self,response):
    papers=response.xpath(".//*[@class='day']")
    for paper in papers:
        url=paper.xpath(".//*[@class='postTitle']/a/@href").extract()
        title=paper.xpath(".//*[@class='postTitle']/a/text()").extract()
        time=paper.xpath(".//*[@class='dayTitle']/a/text()").extract()
        content=paper.xpath(".//*[@class='postCon']/div/text()").extract()
        print(url,title,time,content)
    pass

找到页面中,class为day的部分,然后再找到其中各个部分,提取出来,最后通过print方案输出用于测试。

在正确的目录下,使用cmd运行scrapy crawl cnblogs,完成测试,并观察显示信息中的print内容是否符合要求。

强化爬虫模块-包装数据
包装数据的目的是存储数据。scrapy使用Item类来满足这样的需求。

框架中的items.py用于定义存储数据的Item类。

在items.py中修改MytestprojectItem类,成为以下代码:

1
2
3
4
5
6
7
8
9
import scrapy
class MytestprojectItem(scrapy.Item):

# define the fields for your item here like:
# name = scrapy.Field()
url=scrapy.Field()
time=scrapy.Field()
title=scrapy.Field()
content=scrapy.Field()
pass

然后修改CnblogsSpider.py,成为以下内容:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import scrapy
from myTestProject.items import MytestprojectItem
class CnblogsSpider(scrapy.Spider):

name="cnblogs"
start_urls=["https://www.cnblogs.com/bai2018/"]
def parse(self,response):
    papers=response.xpath(".//*[@class='day']")
    for paper in papers:
        url=paper.xpath(".//*[@class='postTitle']/a/@href").extract()
        title=paper.xpath(".//*[@class='postTitle']/a/text()").extract()
        time=paper.xpath(".//*[@class='dayTitle']/a/text()").extract()
        content=paper.xpath(".//*[@class='postCon']/div/text()").extract()
         
        item=MytestprojectItem(url=url,title=title,time=time,content=content)
        yield item
    pass

将提取出的内容封装成Item对象,使用关键字yield提交。

强化爬虫模块-翻页
有时候就是需要翻页,以获取更多数据,然后解析。

修改CnblogsSpider.py,成为以下内容:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
import scrapy
from scrapy import Selector
from myTestProject.items import MytestprojectItem
class CnblogsSpider(scrapy.Spider):

name="cnblogs"
allowd_domains=["cnblogs.com"]
start_urls=["https://www.cnblogs.com/bai2018/"]
def parse(self,response):
    papers=response.xpath(".//*[@class='day']")
    for paper in papers:
        url=paper.xpath(".//*[@class='postTitle']/a/@href").extract()
        title=paper.xpath(".//*[@class='postTitle']/a/text()").extract()
        time=paper.xpath(".//*[@class='dayTitle']/a/text()").extract()
        content=paper.xpath(".//*[@class='postCon']/div/text()").extract()
         
        item=MytestprojectItem(url=url,title=title,time=time,content=content)
        yield item
    next_page=Selector(response).re(u'<a href="(\S*)">下一页</a>')
    if next_page:
        yield scrapy.Request(url=next_page[0],callback=self.parse)
    pass

在scrapy的选择器方面,使用xpath和css,可以直接将CnblogsSpider下的parse方法中的response参数使用,如response.xpath或response.css。

而更通用的方式是:使用Selector(response).xxx。针对re则为Selector(response).re。

关于yield的说明:https://blog.csdn.net/mieleizhi0522/article/details/82142856

强化爬虫模块-存储
当Item在Spider中被收集时候,会传递到Item Pipeline。

修改pipelines.py成为以下内容:

1
2
3
4
5
6
7
8
9
10
11
12
import json
from scrapy.exceptions import DropItem
class MytestprojectPipeline(object):

def __init__(self):
    self.file=open('papers.json','wb')
def process_item(self, item, spider):
    if item['title']:
        line=json.dumps(dict(item))+"\n"
        self.file.write(line.encode())
        return item
    else:
        raise DropItem("Missing title in %s"%item)

重新实现process_item方法,收集item和该item对应的spider。然后创建papers.json,转化item为字典,存储到json表中。

另外,根据提示打开pipelines.py的开关。在settings.py中,使能ITEM_PIPELINES的开关如下:

然后在cmd中执行scrapy crawl cnblogs即可

另外,还可以使用scrapy crawl cnblogs -o papers.csv进行存储为csv文件。

需要更改编码,将csv文件以记事本方式重新打开,更正编码后重新保存,查看即可。

强化爬虫模块-图像下载保存
设定setting.py
1
2
3
4
5
6
7
8
9
10
11
12
ITEM_PIPELINES = {

'myTestProject.pipelines.MytestprojectPipeline':300,
'scrapy.pipelines.images.ImagesPipeline':1

}
IAMGES_STORE='.//cnblogs'
IMAGES_URLS_FIELD = 'cimage_urls'
IMAGES_RESULT_FIELD = 'cimages'
IMAGES_EXPIRES = 30
IMAGES_THUMBS = {

'small': (50, 50),
'big': (270, 270)

}
修改items.py为:
1
2
3
4
5
6
7
8
9
10
11
12
import scrapy
class MytestprojectItem(scrapy.Item):

# define the fields for your item here like:
# name = scrapy.Field()
url=scrapy.Field()
time=scrapy.Field()
title=scrapy.Field()
content=scrapy.Field()

cimage_urls=scrapy.Field()
cimages=scrapy.Field()
pass

修改CnblogsSpider.py为:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
import scrapy
from scrapy import Selector
from myTestProject.items import MytestprojectItem
class CnblogsSpider(scrapy.Spider):

name="cnblogs"
allowd_domains=["cnblogs.com"]
start_urls=["https://www.cnblogs.com/bai2018/"]
def parse(self,response):
    papers=response.xpath(".//*[@class='day']")
    for paper in papers:
        url=paper.xpath(".//*[@class='postTitle']/a/@href").extract()[0]
        title=paper.xpath(".//*[@class='postTitle']/a/text()").extract()
        time=paper.xpath(".//*[@class='dayTitle']/a/text()").extract()
        content=paper.xpath(".//*[@class='postCon']/div/text()").extract()
         
        item=MytestprojectItem(url=url,title=title,time=time,content=content)
        request=scrapy.Request(url=url, callback=self.parse_body)
        request.meta['item']=item

        yield request
    next_page=Selector(response).re(u'<a href="(\S*)">下一页</a>')
    if next_page:
        yield scrapy.Request(url=next_page[0],callback=self.parse)
    pass
 
def parse_body(self, response):
    item = response.meta['item']
    body = response.xpath(".//*[@class='postBody']")
    item['cimage_urls'] = body.xpath('.//img//@src').extract()
    yield item

总之,修改以上三个位置。在有时候配置正确的时候却出现图像等下载失败,则可能是由于setting.py的原因,需要重新修改。

启动爬虫
建立main函数,传递初始化信息,导入指定类。如:

1
2
3
4
5
6
7
8
9
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

from myTestProject.spiders.CnblogSpider import CnblogsSpider

if __name__=='__main__':

process = CrawlerProcess(get_project_settings())
process.crawl('cnblogs')
process.start()

修正
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
import scrapy
from scrapy import Selector
from cnblogSpider.items import CnblogspiderItem
class CnblogsSpider(scrapy.Spider):

name="cnblogs"
allowd_domains=["cnblogs.com"]
start_urls=["https://www.cnblogs.com/bai2018/"]
def parse(self,response):
    papers=response.xpath(".//*[@class='day']")
    for paper in papers:
        urls=paper.xpath(".//*[@class='postTitle']/a/@href").extract()
        titles=paper.xpath(".//*[@class='postTitle']/a/text()").extract()
        times=paper.xpath(".//*[@class='dayTitle']/a/text()").extract()
        contents=paper.xpath(".//*[@class='postCon']/div/text()").extract()
        for i in range(len(urls)):
            url=urls[i]
            title=titles[i]
            time=times[0]
            content=contents[i]
            item=CnblogspiderItem(url=url,title=title,time=time,content=content)
            request = scrapy.Request(url=url, callback=self.parse_body)
            request.meta['item'] = item
            yield request
    next_page=Selector(response).re(u'<a href="(\S*)">下一页</a>')
    if next_page:
        yield scrapy.Request(url=next_page[0],callback=self.parse)
    pass

def parse_body(self, response):
    item = response.meta['item']
    body = response.xpath(".//*[@class='postBody']")
    item['cimage_urls'] = body.xpath('.//img//@src').extract()
    yield item

感谢您能通过各种渠道找到我,并学习相关。
作文粗糙,有任何不明白或者因故过时,敬请留言。 感谢批评指正。
原文地址https://www.cnblogs.com/bai2018/p/11255185.html

相关文章
|
14天前
|
数据采集 存储 API
网络爬虫与数据采集:使用Python自动化获取网页数据
【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识,包括网络爬虫概念(请求网页、解析、存储数据和处理异常)和Python常用的爬虫库requests(发送HTTP请求)与BeautifulSoup(解析HTML)。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用,如获取新闻数据和商品信息。
|
18天前
|
数据采集 Python
【python】爬虫-西安医学院-校长信箱
本文以西安医学院-校长信箱为基础来展示爬虫案例。来介绍python爬虫。
【python】爬虫-西安医学院-校长信箱
|
4天前
|
数据采集 存储 JSON
Python爬虫面试:requests、BeautifulSoup与Scrapy详解
【4月更文挑战第19天】本文聚焦于Python爬虫面试中的核心库——requests、BeautifulSoup和Scrapy。讲解了它们的常见问题、易错点及应对策略。对于requests,强调了异常处理、代理设置和请求重试;BeautifulSoup部分提到选择器使用、动态内容处理和解析效率优化;而Scrapy则关注项目架构、数据存储和分布式爬虫。通过实例代码,帮助读者深化理解并提升面试表现。
13 0
|
7天前
|
数据采集 JavaScript 前端开发
使用Python打造爬虫程序之破茧而出:Python爬虫遭遇反爬虫机制及应对策略
【4月更文挑战第19天】本文探讨了Python爬虫应对反爬虫机制的策略。常见的反爬虫机制包括User-Agent检测、IP限制、动态加载内容、验证码验证和Cookie跟踪。应对策略包括设置合理User-Agent、使用代理IP、处理动态加载内容、验证码识别及维护Cookie。此外,还提到高级策略如降低请求频率、模拟人类行为、分布式爬虫和学习网站规则。开发者需不断学习新策略,同时遵守规则和法律法规,确保爬虫的稳定性和合法性。
|
19天前
|
数据采集 存储 前端开发
Python爬虫如何快速入门
写了几篇网络爬虫的博文后,有网友留言问Python爬虫如何入门?今天就来了解一下什么是爬虫,如何快速的上手Python爬虫。
21 0
|
3月前
|
数据采集 存储 数据处理
Scrapy:Python网络爬虫框架的利器
在当今信息时代,网络数据已成为企业和个人获取信息的重要途径。而Python网络爬虫框架Scrapy则成为了网络爬虫工程师的必备工具。本文将介绍Scrapy的概念与实践,以及其在数据采集和处理过程中的应用。
23 1
|
4月前
|
数据采集 调度 Python
Scrapy爬虫中合理使用time.sleep和Request
Scrapy爬虫中合理使用time.sleep和Request
|
1月前
|
数据采集 Web App开发 搜索推荐
项目配置之道:优化Scrapy参数提升爬虫效率
项目配置之道:优化Scrapy参数提升爬虫效率
|
3月前
|
数据采集 存储 调度
Scrapy:解锁网络爬虫新境界
在当今信息爆炸的时代,获取并处理大量网络数据是互联网行业中至关重要的一环。Python网络爬虫框架Scrapy作为一款高效、灵活的工具,为开发者提供了强大的能力来抓取、解析和存储各类网页信息。本文将介绍Scrapy的概念、主要特点以及实践经验,帮助读者掌握这一工具,并在实际项目中应用。
|
3月前
|
数据采集 存储 机器人
Scrapy网络爬虫框架——从入门到实践
网络爬虫已经成为了信息获取的必备工具之一,而Scrapy作为Python中最流行的网络爬虫框架之一,具有高效、可扩展、易用等特点。本文将深入介绍Scrapy框架的概念和实践,帮助读者快速掌握构建高质量网络爬虫的方法。
62 0