DC学院数据分析学习笔记(一):获取数据

简介: 本文简单介绍了如何通过豆瓣API来爬取豆瓣的信息

在DC学院上买了个数据分析的课程,OK!说干就干,记录下学习的笔记,希望能有所收获( ̄︶ ̄)↗

数据获取的方式

  1. 开放数据集
  2. 网站爬虫

开放数据集

  • 科研数据共享
  • 数据算法竞赛:DC学院,天池,kaggle
  • 政府公司分享
  • 个人分享

这个没什么好说的,科学上网,国外网站多的是!

网站爬虫

  • 建立网站连接
  • 爬取网页/API
  • 分析返回结果
  • 抽取所需信息

爬虫分两大类:

  1. 基于网站API的爬取:一般返回格式是JSON,这个和阿里云API返回的格式是一样的
  2. 基于网页的爬取:这个就比较难了,用过API的都明白(/▽\)

OK,刚学习了简单的网站API的爬取,下面实践一下!

这里是豆瓣API快速入门网址:https://developers.douban.com/wiki/?title=guide

我们可以访问请求的url来获取想要的信息
image

但这样显然太麻烦了,我们也可以通过python的urllib包来解决问题

image

返回的格式是JSON

稍微介绍一下JSON:

  • JSON 指的是 JavaScript 对象表示法(JavaScript Object Notation)
  • JSON 是轻量级的文本数据交换格式
  • JSON 独立于语言 ,JSON 使用 JavaScript 语法来描述数据对象,但是 JSON 仍然独立于语言和平台。JSON 解析器和 JSON 库支持许多不同的编程语言。
  • JSON 具有自我描述性,更易理解
  • 数据在名称/值对中(如:"Day" : "Sunday"),数据由逗号,分隔花括号保存对象,方括号保存数组

然后我们用python解析JSON,假设我们要获取的是上文(如图)“rating”中“average"键所对应的值
image

来和浏览网站的时候所看到的对比一下

image

如果需要将获得的数据存到本地,同样可以用python轻松解决

image

在本地看一下

image

获取多部电影

image

这样是不是还不够便捷?

能不能输入一些电影名字,然后直接返回我们需要的信息,如评分呢?

OK,还是用到API,不过这里用到了”电影搜索“的API:

image

image

很OK!

下面看代码!

image

今天数据分析就学习了这么多,OK!希望能有所收获( ̄︶ ̄)↗

目录
相关文章
|
1月前
|
自然语言处理 小程序 数据挖掘
数据分析实战-Python实现博客评论数据的情感分析
数据分析实战-Python实现博客评论数据的情感分析
103 0
|
4月前
|
机器学习/深度学习 存储 SQL
15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!
15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!
|
2月前
|
数据采集 数据挖掘 API
主流电商平台数据采集API接口|【Python爬虫+数据分析】采集电商平台数据信息采集
随着电商平台的兴起,越来越多的人开始在网上购物。而对于电商平台来说,商品信息、价格、评论等数据是非常重要的。因此,抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。本文将介绍如何使用Python编写爬虫程序,抓取电商平台的商品信息、价格、评论等数据。 当然,如果是电商企业,跨境电商企业,ERP系统搭建,我们经常需要采集的平台多,数据量大,要求数据稳定供应,有并发需求,那就需要通过接入电商API数据采集接口,封装好的数据采集接口更方便稳定高效数据采集。
|
3月前
|
数据可视化 数据挖掘 Java
提升代码质量与效率的利器——SonarQube静态代码分析工具从数据到洞察:探索Python数据分析与科学计算库
在现代软件开发中,保证代码质量是至关重要的。本文将介绍SonarQube静态代码分析工具的概念及其实践应用。通过使用SonarQube,开发团队可以及时发现和修复代码中的问题,提高代码质量,从而加速开发过程并减少后期维护成本。 在当今信息爆炸的时代,数据分析和科学计算成为了决策和创新的核心。本文将介绍Python中强大的数据分析与科学计算库,包括NumPy、Pandas和Matplotlib,帮助读者快速掌握这些工具的基本用法和应用场景。无论是数据处理、可视化还是统计分析,Python提供了丰富的功能和灵活性,使得数据分析变得更加简便高效。
|
8天前
|
数据挖掘 定位技术
基于出租车GPS轨迹数据的研究:出租车行程的数据分析
基于出租车GPS轨迹数据的研究:出租车行程的数据分析
|
9天前
|
机器学习/深度学习 数据采集 数据挖掘
Python 的科学计算和数据分析: 解释什么是数据规整(Data Wrangling)?
【4月更文挑战第15天】数据规整是将原始数据转化为适合分析和建模的格式的关键步骤,涉及缺失值处理(删除、填充、插值)、异常值检测与处理、数据类型转换、重采样、数据合并、特征选择和特征变换等任务。这些预处理步骤确保数据质量和准确性,为后续的数据分析和机器学习模型构建奠定基础。
18 4
|
20天前
|
存储 机器学习/深度学习 数据采集
数据分析师如何处理数据以进行分析?
【4月更文挑战第4天】数据分析师如何处理数据以进行分析?
19 9
|
21天前
|
人工智能 监控 数据可视化
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
|
1月前
|
存储 数据采集 数据挖掘
python数据分析——数据分类汇总与统计
数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳,然后对这些数据进行统计分析,以便于更好地了解数据的特点和规律。
58 1
|
1月前
|
存储 SQL 数据挖掘
python数据分析——数据的选择和运算
在数据分析中,数据的选择和运算是非常重要的步骤。数据选择和运算是数据分析中的基础工作,正确和高效的选择和运算方法对于数据分析结果的准确性和速度至关重要。
43 0