《数据科学:R语言实现》——2.6 从数据库中读取数据

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介:

本节书摘来自华章出版社《数据科学:R语言实现》一 书中的第2章,第2.6节,作者:R for Data Science Cookbook 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.6 从数据库中读取数据

由于R会把数据读入内存中,因此这对于处理和分析小型数据集很合适。然而,由于企业每天积累的数据量要比个人的多得多,数据库文档在存储和分析大型数据时就变得更加常用。为了使用R访问数据库,我们可以使用RJDBC、RODBC或者RMySQL作为通信桥梁。在这一部分中,我们会介绍如何使用RJDBC连接存在数据库中的数据。
准备工作
在这一部分中,我们需要首先准备MySQL环境。如果你的机器(Windows)上有一个环境,你可以从MySQL通知器中检查服务器状态。如果本地服务器正在运行,服务器状态应该弹出localhost (Online),如图8所示。
数据库服务器在线后,我们需要验证是否获得授权,可以通过任意数据库连接客户端使用给定的用户名和密码访问数据库。例如,你可以使用MySQL命令行客户端连接数据库。
实现步骤
执行下列步骤,使用RJDBC连接R和MySQL。
1.首先,我们需要安装加载RJDBC程序包:
screenshot
screenshot

运行原理
R可以使用两大标准访问数据库,即ODBC和JDBC。JDBC(又称Java数据库连接)由一系列Java实现的类和接口组成,它们允许Java和数据库间直接通信。另外,ODBC(又称公开数据库连接)是由微软开发的标准接口。
要比较两个标准,ODBC在输入和输出数据方面性能更优;但是它也是平台依赖的。换句话说,在你的程序运行之前,你必须为不同的操作系统配置连接。相反,JDBC是平台独立的,意味着写好的程序可以在任何操作系统上运行。
要使用RJDBC连接R和MySQL,我们首先需要从CRAN安装加载RJDBC程序包。RJDBC提供了接口来连接数据库。 因为JDBC是使用Java实现的,在使用RJDBC之前,你需要安装rJava。
接着,我们从MySQL的官方下载网站下载MySQL Connector/J,它是MySQL的官方JDBC驱动。解压.zip文件(或.tar文件后),我们把文件放在合适的路径下(你可以把.jar文件添加到类路径下)。现在我们可以编写R程序来访问数据库了。
在我们的R脚本中,我们在提交任何查询请求之前,首先需要注册和初始化MySQL驱动。这里,我们需要指定驱动的类名,com.mysql.jdbc.Driver(不同的数据库有不同的类名),以及.jar文件mysqlconnector-java-5.0.8-bin.jar。我们可以在.jar文件中找到类 。接着,我们使用注册的驱动建立数据库连接。这里,我们需要提供连接字符串(jdbc:mysql://localhost:3306/finance)、用户名(root)和密码(test)来访问数据库。因为我们的MySQL服务器安装和运行在本地主机上,我们可以设计一个连接字符串"jdbc:mysql://localhost:3306/finance" 。3306是默认的MySQL端口,finance是我们的目标数据库。
连接建立以后,我们可以给数据库提交SQL请求。我们首先使用dbListTables命令列出finance数据库上的表。然后,我们创建名为majortrade的表,并使用insert语句把snp500.csv中的数据记录插入majortrade表中。然后我们使用select语句获取数据库中的数据。最后,要释放连接,我们需要使用dbDisconnect命令。
更多技能
在R中,你也可以使用RODBC和RMySQL来连接数据库。在这一部分中,我们会介绍如何通过RMySQL访问数据库。执行下面的步骤,安装加载RMySQL程序包,然后给MySQL数据库提交查询。
1.我们需要安装加载RMySQL程序包:
screenshot

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
25天前
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
1月前
|
存储 关系型数据库 MySQL
如何处理爬取到的数据,例如存储到数据库或文件中?
【2月更文挑战第23天】【2月更文挑战第73篇】如何处理爬取到的数据,例如存储到数据库或文件中?
|
1月前
|
SQL 开发框架 JavaScript
在 Vue 中进行数据持久化时,有哪些常用的数据库框架?
在 Vue 中进行数据持久化时,有哪些常用的数据库框架?
46 3
|
29天前
|
SQL Java 数据库连接
从来没想到我们会扒拉nohup文件去找我们想要的数据,然后往数据库中添加。。。...
从来没想到我们会扒拉nohup文件去找我们想要的数据,然后往数据库中添加。。。...
17 0
|
1天前
|
机器学习/深度学习
R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据
R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据
10 0
|
1天前
|
数据采集 数据可视化 定位技术
R语言空气污染数据的地理空间可视化和分析:颗粒物2.5(PM2.5)和空气质量指数(AQI)
R语言空气污染数据的地理空间可视化和分析:颗粒物2.5(PM2.5)和空气质量指数(AQI)
12 0
|
2天前
|
机器学习/深度学习 API 算法框架/工具
R语言深度学习:用keras神经网络回归模型预测时间序列数据
R语言深度学习:用keras神经网络回归模型预测时间序列数据
12 0
|
2天前
|
存储 算法 前端开发
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
24 0
|
2天前
|
数据可视化 算法 数据挖掘
R语言聚类有效性:确定最优聚类数分析IRIS鸢尾花数据和可视化
R语言聚类有效性:确定最优聚类数分析IRIS鸢尾花数据和可视化
17 1
|
2天前
|
数据可视化 数据挖掘
R语言数据可视化分析案例:探索BRFSS数据
R语言数据可视化分析案例:探索BRFSS数据
14 2
R语言数据可视化分析案例:探索BRFSS数据