开发者社区数据库文章正文

使用python的pandas读取数据库中数据，初始化到dataframe的速度过慢问题解决思路

2018-07-08 6775

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

原生方法

100万数据，在oracle数据库中，使用最方便的pandas自带的read_sql方法

import pandas as pd
import sqlalchemy as sql
db_engine=sql.create_engine('oracle://test01:test01@test001db')
db_df1=pd.read_sql('select * from my_table1',db_engine)

代码是方便了，不过用了快10分钟，dataframe才初始化完成

通过JDBC查询的方式

import pandas as pd
import sqlalchemy as sql
db_engine=sql.create_engine('oracle://test01:test01@test001db')
conn=ora_engine.raw_connection()
cursor=conn.cursor()
queryset=cursor.execute('select * from my_table1')
columns=[for i[0] in queryset.description]
jdbc_data=queryset.fetchall()
db_df1=pd.DataFrame(jdbc_data,columns=["A1","B2","C3"])

db_df1.columns=columns
db_df1.append(df_data)

多几行代码，不过2分钟就完成了dataframe的初始化动作，看来pandas自身的方式是需要优化的，不应该官方的方式对比常规方式有好几倍的性能差异的。

文章标签：

Python

数据库

关系型数据库

SQL

Oracle

Java

数据库连接

关键词：

Python数据

数据库数据

Python Pandas

Pandas python

Pandas dataframe

阿姆斯特芬

你鞋带开了~

25天前

存储 Oracle 关系型数据库

Dataphin常见问题之想要周期执行任务如何解决

Dataphin是阿里云提供的一站式数据处理服务，旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能，支持企业更高效地进行数据治理和分析。

你鞋带开了~

28 1 1

众所周知

28天前

数据格式 Python

如何使用Python的Pandas库进行数据透视图（melt/cast）操作？

Pandas的`melt()`和`pivot()`函数用于数据透视。基本步骤：导入pandas，创建DataFrame，然后使用这两个函数转换数据格式。示例代码展示了如何通过`melt()`转为长格式，再用`pivot()`恢复为宽格式。输入数据是包含'Name'和'Age'列的DataFrame，最终结果经过转换后呈现出不同的布局。

众所周知

39 6 6

东方睿赢

28天前

索引 Python

如何使用Pandas进行数据合并？

Pandas的`merge()`, `join()`, `concat()`是数据合并的主要工具。基本步骤包括导入pandas，创建DataFrame，然后执行合并。示例中，创建了两个DataFrame `df1`和`df2`，通过`merge()`和`join()`进行外连接合并。`merge()`基于索引合并，`join()`默认也使用索引合并，展示了数据融合的不同方式。

东方睿赢

13 0 0

桃李春风一杯酒

28天前

数据挖掘数据处理索引

如何使用Python的Pandas库进行数据筛选和过滤？

Pandas是Python数据分析的核心库，其DataFrame数据结构便于数据操作。筛选与过滤数据主要包括：导入pandas，创建DataFrame，通过布尔索引、`query()`或`loc[]`、`iloc[]`方法筛选。

桃李春风一杯酒

17 0 0

使者大牙

25天前

BI 数据处理索引

Pandas基本操作：Series和DataFrame（Python）

使者大牙

95 1 1

穆雄雄.

29天前

SQL Java 数据库连接

从来没想到我们会扒拉nohup文件去找我们想要的数据，然后往数据库中添加。。。...

穆雄雄.

17 0 0

以山向海

2天前

SQL 关系型数据库 MySQL

关系型数据库插入数据的语句

使用SQL的`INSERT INTO`语句向关系型数据库的`students`表插入数据。例如，插入一个`id`为1，`name`为'张三'，`age`为20的记录：`INSERT INTO students (id, name, age) VALUES (1, '张三', 20)。如果`id`自增，则可简化为`INSERT INTO students (name, age) VALUES ('张三', 20)`。

以山向海

5 2 2

以山向海

2天前

SQL 存储 Oracle

关系型数据库查询数据的语句

本文介绍了关系型数据库中的基本SQL查询语句，包括选择所有或特定列、带条件查询、排序、分组、过滤分组、表连接、限制记录数及子查询。SQL还支持窗口函数、存储过程等高级功能，是高效管理数据库的关键。建议深入学习SQL及相应数据库系统文档。

以山向海

6 2 2

1941623231718325

3天前

数据挖掘数据处理索引

数据合并与连接：Pandas中的强大数据整合功能

【4月更文挑战第16天】Pandas是Python数据分析的库，提供数据合并与连接功能。本文聚焦于`merge`和`concat`函数。`merge`基于键合并DataFrame，如示例中`df1`和`df2`按'key'列合并，支持多种连接方式。`concat`则沿轴堆叠DataFrame，如`df3`和`df4`沿行连接。注意合并连接时键的一致性、选择合适连接方式及处理索引和数据结构，以确保数据准确一致。学习这些方法能有效整合多数据源，便于分析。

1941623231718325

4 0 0

1941623231718325

3天前

存储数据库连接数据处理

数据加载与保存：Pandas中的数据输入输出操作

【4月更文挑战第16天】Pandas是Python数据分析的强大工具，支持多种数据加载和保存方法。本文介绍了如何使用Pandas读写CSV和Excel文件，以及与数据库交互。`read_csv`和`to_csv`用于CSV操作，`read_excel`和`to_excel`处理Excel文件，而`read_sql`和`to_sql`则用于数据库的读写。了解这些基本操作能提升数据处理的效率和灵活性。

1941623231718325

5 0 0

使用python的pandas读取数据库中数据，初始化到dataframe的速度过慢问题解决思路

原生方法

通过JDBC查询的方式

热门文章

最新文章

相关课程

相关电子书

相关实验场景