PythonSpider---爬取淘宝店铺信息并导入excel

简介: 挺久没更新简书了,之前一直在忙机器视觉的开题报告,现在又要期末复习,射频通信,信号处理看的脑阔疼,所以决定写个简单点的爬虫,放松下,换个环境,也顺便巩固下爬虫。

挺久没更新简书了,之前一直在忙机器视觉的开题报告,现在又要期末复习,射频通信,信号处理看的脑阔疼,所以决定写个简单点的爬虫,放松下,换个环境,也顺便巩固下爬虫。


img_24b787a69dde4429cc2429c6b2d004cb.png
图片来自网络

0.运行环境

  • Python3.6.5
  • Pycharm
  • win10

1.爬虫思维框架

img_3b77da88d193c6cb488730f4001ccf11.png
框架

1:从上图中可以看出本次爬虫所用到的库,其中xlsxwriter库是用来制作excel表格存储数据的,剩余两个库就不用多说了,爬虫必备库,你一定接触过。
官方xlsxwriter解释
CSDN博主的精简版
2:分四个步骤完成,详见上图框架。
3:爬取的淘宝页面

img_99dd727184ed0c0d0419dc887acd06cf.png
本次所要爬取的信息


2.可能遇到的问题及解决方案

  • Q1,无法获取网页源代码,得到的text总是为空?
    A1,必须在headers中加入cookie和user-agent,缺一不可。
  • Q2,使用beautifulsoup库好还是直接正则表达式RE好?
    A2,对于本次爬虫还是正则表达式好,做了就知道了。==!
  • Q3,如何爬取多个页面的信息?
    A3,仔细观察多个页面的URL有何区别,本次的URL最后,第一页是0,第二页是20,第三页是40,找规律便可取得所有页面的URL。
  • Q4,我还有其他疑问怎么办?
    A4,在评论区提出,博主会第一时间回复你的哦!

3.完整代码

import requests
import re
import xlsxwriter

def getUrl(page):   # page为[0,10]内的整数
    part1 = 'https://shopsearch.taobao.com/search?app=shopsearch&spm=a230r.7195193.0.0.45xMl6&q=%E9%A3%9F%E5%93%81&tracelog=shopsearchnoqcat&s='
    list = []
    for a in range(0, page):
        part2 = '{}'.format(20*a)
        url = part1 + part2
        list.append(url)
    return list
def getHtmlText(url):
    try:
        headers = {
            隐藏,因为每个人都不一样,可通过F12获取,具体方法自行百度
            Cookie 和 User-Agent必须要
        }
        res = requests.get(url, headers=headers, timeout=30)
        res.raise_for_status()
        res.encoding = res.apparent_encoding
        # time.sleep(1)
        return res.text
    except:
        return '网络异常'
def getTaobaoData(text):
    NAME = re.findall('"nick":"(.*?)"', text)
    PLACE = re.findall('"provcity":"(.*?)"', text)
    Totalsold = re.findall('"totalsold":(.*?),', text)
    Procnt = re.findall('"procnt":(.*?),', text)
    return NAME, PLACE, Totalsold, Procnt

def main(page):
    num = 0
    List = getUrl(page)
    TaobaoData = xlsxwriter.Workbook('E:\\taobaodata.xlsx')
    StoresData = TaobaoData.add_worksheet()
    title = [u'店铺', u'地址', u'销量', u'产品数']
    StoresData.write_row('A1', title)
    StoresData.set_column('A:D', 25)
    for URL in List:
        Text = getHtmlText(URL)
        name, place, totalsold, procnt = getTaobaoData(Text)
        StoresData.write_column(1+20*num, 0, name)
        StoresData.write_column(1+20*num, 1, place)
        StoresData.write_column(1+20*num, 2, totalsold)
        StoresData.write_column(1+20*num, 3, procnt)
        num += 1
        if not name:
            print('第{}页爬取失败'.format(num))
        else:
            print('第{}页爬取成功'.format(num))
    TaobaoData.close()

if __name__ == '__main__':
    a = input('请输入需要爬取的页数(建议小于10):')
    main(int(a))

4.实现效果

img_7281469524c6c3be4422a6cb5ad1fd29.png
Excel
目录
相关文章
|
18天前
|
SQL 缓存 easyexcel
面试官问10W 行级别数据的 Excel 导入如何10秒处理
面试官问10W 行级别数据的 Excel 导入如何10秒处理
47 0
|
1月前
|
存储 数据处理 数据格式
Python中导入Excel数据:全面解析与实践
Python中导入Excel数据:全面解析与实践
40 0
|
1月前
|
存储 关系型数据库 MySQL
Python导入Excel数据到MySQL数据库
Python导入Excel数据到MySQL数据库
73 0
|
1月前
|
Java easyexcel 应用服务中间件
【二十五】springboot使用EasyExcel和线程池实现多线程导入Excel数据
【二十五】springboot使用EasyExcel和线程池实现多线程导入Excel数据
161 0
|
6月前
|
Java Maven
【Java用法】使用EasyPoi导入与导出Excel文档的解决方案
【Java用法】使用EasyPoi导入与导出Excel文档的解决方案
144 0
|
3月前
|
easyexcel 数据库
为获取导入百分比,使用easyexcel获取导入excel表总行数
为获取导入百分比,使用easyexcel获取导入excel表总行数
79 0
|
8月前
|
Java
解决导入excel手机号以科学计数法上传问题!!!
解决导入excel手机号以科学计数法上传问题!!!
210 0
|
8月前
fastadmin实现导出Excel和导入Excel数据
fastadmin实现导出Excel和导入Excel数据
206 0
|
4月前
|
数据管理
宜搭流程中,数据管理批量发起如何成功导入 年-月-日 时:分格式数据 当前数据管理批量发起,Excel文本中编辑时间格式如2023-12-07 20:00,批量导入生成后显示为20231207 00:00,请问如何让时:分正确显示。
宜搭流程中,数据管理批量发起如何成功导入 年-月-日 时:分格式数据 当前数据管理批量发起,Excel文本中编辑时间格式如2023-12-07 20:00,批量导入生成后显示为20231207 00:00,请问如何让时:分正确显示。
61 2
|
4月前
|
前端开发 小程序 JavaScript
phpexcel(二)导入excel文件
有导出。自然就有导入。功能多样化嘛。 我这里使用的是laravel5.8框架(框架老点,但是这玩意完全就是一个自定义方法,跟框架版本什么的没有关系)
23 1