海量数据处理方案

简介:
需求:
1、把2个excel的sheet表中的海量数据按照时间,对比起来放在同一个excel的shell中; 
2、两个表为无序, 且存在对方表中的数据在自己表中对应的时间点上不存在的情况

方法一、数据库
(1)使用toad导入数据

将EXCEL文件中某些字段导入到ORACLE数据库的对应表
连接想要导入的数据库
Database--->Import----> Table Data打开了导入窗口
在Object Name中选择你将要导入的表名点击"Show Data" ---> "Execute Wizard"打开了导入向导在导入向导中选择Excel file类型,下一步在import from File中选择刚刚导出的EXCEL文件,下一步默认,下一步;默认,下一步选择数据库字段对应的列,本机是USER_LOGIN_ID对应C列OA_LOGIN_ID对应B列 , 下一步再次确认列有没有导入错误,下一步点“Excecute”执行结束


(2)使用数据库进行操作
步骤1:创建临时表 js_sum
create table js_sum as
( select                                                                                                                         
    JP_NAME                 ,                                                                                                
    JP_CUR_DAY            ,                                                                                                
    JP_START_PRICE    ,                                                                                                
    JP_HIGHEST_PRICE,                                                                                                
    JP_LOWEST_PRICE ,                                                                                                
    JP_LAST_PRICE     ,                                                                                                
    JP_EXCHANGE_SUM ,                                                                                                
    JP_HANDLE_SUM     ,                                                                                                
    JP_CALC_PRICE     ,                                                                                                                                                                                                                            
    SH_NAME                 ,                                                                                                
    SH_CUR_DAY            ,                                                                                                
    SH_START_PRICE    ,                                                                                                
    SH_HIGHEST_PRICE,                                                                                                
    SH_LOWEST_PRICE ,                                                                                                
    SH_LAST_PRICE     ,                                                                                                
    SH_EXCHANGE_SUM ,                                                                                                
    SH_HANDLE_SUM     ,                                                                                                
    SH_CALC_PRICE     ,                                                                                                
    SH_LASTPRICE_UP ,                                                                                                
    SH_PERCENT_OVER                                                                             
    from japan j, shanghai s where    j.JP_CUR_DAY = s.SH_CUR_DAY
);

步骤2:加入2个表中剩余的数据到临时表中

步骤3:排序
将临时表中的所有数据进行排序

(3)使用toad导出数据
从ORACLE数据库导出成为EXCEL文件
利用TOAD连接上数据库,访问某个表,我本机是选中表“EXP_JS”, 右键“Save as...”
为了解决中文乱码问题,所以选择类型为"XLS Instance",如果存在长数字型字符串被改变的问题,
请选中“String Fields as Strings”
选择文件的存放路径 Destination directory
点击“OK”,会打开一个EXCEL文件,文件中已经是导出的数据,点击保存,将这个文件保存即可。




本文转自 tianya23 51CTO博客,原文链接:http://blog.51cto.com/tianya23/343695,如需转载请自行联系原作者
相关文章
|
9月前
|
存储 算法 搜索推荐
海量数据处理
海量数据处理
113 0
|
7月前
|
存储 NoSQL 算法
大数据存储方案
大数据存储方案
348 0
|
9月前
|
存储 负载均衡 Java
Java开发中应对海量数据的分库分表方案探究
在实际的Java开发中,当面临海量数据存储和处理的情况时,单一数据库可能无法满足性能和扩展需求。这时,分库分表方案成为一种常用的解决方案。本文将介绍分库分表的基本概念,并探究其在Java开发中的具体应用和实践。
208 0
|
10月前
|
存储 数据采集 分布式计算
数据湖架构的优势与挑战:数据存储和分析策略
随着大数据时代的到来,数据湖架构逐渐成为许多企业进行数据存储和分析的首选方案。数据湖是一种用于存储大量原始和结构化数据的中心化存储库。在本文中,我们将深入探讨数据湖架构的优势和挑战,并介绍一些常见的数据存储和分析策略。
321 0
|
存储 缓存 NoSQL
【分布式技术专题】「架构实践于案例分析」盘点高并发场景的技术设计方案和规划
【分布式技术专题】「架构实践于案例分析」盘点高并发场景的技术设计方案和规划
197 0
【分布式技术专题】「架构实践于案例分析」盘点高并发场景的技术设计方案和规划
我的收藏:第三章:海量数据和高并发解决方案
我的收藏:第三章:海量数据和高并发解决方案
我的收藏:第三章:海量数据和高并发解决方案
|
存储 缓存 负载均衡
阿里 P9 架构师讲解从单机至亿级流量大型网站系统架构的演进过程
阿里 P9 架构师讲解从单机至亿级流量大型网站系统架构的演进过程
|
存储 运维 监控
蚂蚁超大规模分布式系统稳定性体系实践
大规模分布式系统的稳定性建设,是确保业务服务不受硬件、人为等风险因素影响而中断的核心工作,随着业务规模增大和复杂度的提升,系统稳定性的重要程度和难度也随之增大。在蚂蚁集团业务发展过程中,业务复杂度、用户规模以及业务重要性都逐步增大,相应的稳定性建设也伴随着业务的发展进行了不断地建设和提升。
1706 1
蚂蚁超大规模分布式系统稳定性体系实践
|
SQL 存储 分布式计算
面向B端算法实时业务支撑的工程实践
在阿里妈妈营销场景下,算法同学会对广告主提供个性化的营销工具,帮助广告主更好的精细化营销,在可控成本内实现更好的ROI提升。我们在这一段时间支持了多个实时业务场景,比如出价策略的实时化预估、关键词批量服务同步、实时特征等场景,了解到业务侧同学来说,针对ODPS场景来说大部分可以灵活使用,但对于Blink使用还有不足,我们这里针对场景积累了一些经验,希望对大家有一些帮助;
188 1
|
存储 Hbase 分布式数据库
面向海量数据的极致成本优化-云HBase的一体化冷热分离
随着业务的持续发展,业务数据库存储量会持续增长。通常数据量过亿时,就需要考虑选择扩展能力更好的NOSQL数据库如HBase,足够满足大多数业务的存储需求。然而,对于大量存储瓶颈类业务,存储成本依然是系统设计中需要关注的重中之重,本文介绍了一种全新的冷热分离一体化方案,0改造成本实现业务冷热分离
5200 0
面向海量数据的极致成本优化-云HBase的一体化冷热分离