探秘采云间:全链路数据处理工具直击传统DW/BI痛点

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: 如何在数据金矿中挖掘出宝藏、如何做好数字化运营,成为各类企业共同关注的话题。阿里云ODPS在2014年1月对外开放公测,旨在推动大数据“平民化”。为了丰富ODPS的周边生态,降低用户的接入成本,提高实施效率,尤其是弥补传统DW/BI工具的缺陷,阿里云依托多年建设内部数据工作平台的沉淀,开始搭建一套解

本文来自《程序员》与阿里云联合出品的《凌云》杂志。

作者:周卫林

 

    近几年来,各行各业的数据增长趋势都非常明显,大数据不再是少数大企业的专属研究领域。如何在数据金矿中挖掘出宝藏、如何做好数字化运营,成为各类企业共同关注的话题。针对企业日益迫切的数据化运营需求,阿里云ODPS(Open Data Processing Service,开放数据处理服务)在2014年1月对外开放公测,旨在推动大数据分析处理“平民化”。为了丰富ODPS的周边生态,降低用户的接入成本,提高实施效率,尤其是弥补传统DW/BI工具的缺陷,基于多年建设内部数据工作平台的经验,我们搭建了一套解决方案,称为采云间(Data Process Center,简称DPC),取“采集云间数据”之意。采云间于2014年7月24日在阿里云官网上线,通过快速迭代数个版本,目前的V1.2版本已经可以较为完整地支持ETL工程师和数据分析师的工作。

 

     DW/BI软件行业已有30多年的发展历史,Oracle、IBM、SAP等多家传统厂商,通过自研和收购的方式,形成了自己的DW/BI产品解决方案,并在金融、电信等传统行业中得到广泛的应用。然而,传统的ETL和BI工具,通常存在着以下问题。

 

     ■ License昂贵,初始软件投入费用高。

 

     ■ 学习成本大,需要1-2周的专业培训才能上手,后续咨询服务费用高。

 

     ■ 需要二次开发,后期扩展难,普遍不支持分布式数据存储与计算平台,例如Hadoop。

 

     与传统工具相比,采云间在产品形态上有比较大的区别。

 

     ■ SaaS化,所有产品都在云端部署,不需要本地安装。

 

     ■ 提供统一的数据工作台,通过应用中心可以接入第三方提供的服务,形成丰富的大数据工具解决方案。

 

     ■ 多数产品都是图形化操作界面,比如简单拖拽即可完成数据分析和报表制作。

 

     目前,采云间内部集成了Ali Data Developer Package(数据开发者套件)和 Ali Business Intelligence Package(商业智能套件),提供的数据处理工具,包括ODPS IDE、数据同步、任务调度、数据分析、报表制作等。其产品功能示意参见图1,其产品功能列表参见图2。用户通过采云间应用中心可以查看到具体的产品列表,见图3。

 

TB12Qi1GVXXXXcMXpXXLK7HWVXX-418-255.jpg

 

TB1VIiVGVXXXXckXVXXSm9j7FXX-973-523.jpg

 

TB1EISZGVXXXXXAXVXX4m4k2VXX-962-486.jpg

 

     应用演示

 

     下面以完成一个简单的业务报表的统计分析作为需求,来演示采云间的主要功能,并详细介绍采云间的产品实现。要完成一个业务报表的统计分析,主要涉及几个步骤:

 

     ■ 同步RDS(Relational Database Service,关系型数据库服务)数据库中的数据到ODPS上;

 

     ■ 使用数据工厂执行ODPS SQL;

 

     ■ 通过“数据分析”进行在线可视化数据分析。

 

     如何同步RDS数据库中的数据到ODPS上

 

     采云间内置了数据同步和流转功能,完成RDS与ODPS之间的双向同步只需在采云间配置中心创建RDS和ODPS的连接信息即可。当配置RDS链接信息时,建议该账号只开通表的查询权限。对于这些用户名和密码,采云间会调用阿里云公有的加密服务进行加密保存。

 

     步骤1:进入RDS控制台,点击实例名称,进入RDS管理页面获取实例ID。

 

     步骤2:在采云间配置中心,点击“新建连接配置”,填写RDS实例的用户名和密码,保存配置。同理,可以完成ODPS链接信息的配置。

 

     完成上述操作之后,通过数据工厂(该工具的使用,参见“如何使用数据工厂执行ODPS SQL”)创建需要同步的表的结构,然后在任务管理里通过新建“同步任务”的方式,配置数据同步任务,确定提交之后,就可以每天自动进行数据同步了。

 

     重复上述的操作,可以配置多个同步任务,完成每天从生产库里将表中的数据同步到离线分析环境ODPS中,为后续的数据清洗转换作准备。

 

     如何使用数据工厂执行ODPS SQL

 

     数据工厂是ODPS的集成开发环境(IDE),提供了类似PL/SQL Developer的功能。使用它,可以完成如下工作:编写和管理你的代码;查看和管理表;创建任务;上传本地文件。

 

     在采云间控制台上第一次登录数据工厂时,需要输入ODPS的Project名称和对应的Access Key ID和Access Key Secret。点击登录界面的“立即查看Access Key”,跳转到如图4中的页面,找到启用的Access Key ID和Access Key Secret,复制并粘贴。

 

TB1BAiPGVXXXXXsapXXz2aB6FXX-760-201.jpg

 

     进入数据工厂,点击“新建SQL文件”,输入SQL语句,点击“执行”按钮,即可完成一个简单的查询,执行日志和查询结果会显示在下方(图5)。

 

TB1JIu5GVXXXXaqXpXX1h430FXX-1103-619.jpg

 

     通常我们会依据业务统计需求,对生产库里同步过来的多个表,进行数据关联处理,生成结果表。这个结果表就是后续进行数据可视化分析的源材料。

 

     如何通过“数据分析”进行在线可视化数据分析

 

     首先,需要从ODPS上导入元数据信息,形成数据分析的数据集。如图6所示,完成ODPS的链接信息设置;选择需要分析的表,点击导入,形成分析数据集。

 

TB1za12GVXXXXXOXFXXEPuWWpXX-387-175.jpg

 

     其次,从导入的数据集中,选择一个打开,就可以开始进行数据分析了。整个分析过程的体验非常像在Excle里做透视分析,可以大大降低学习成本,如图7所示。

 

TB1g_a1GVXXXXXTXFXXz7SqFFXX-1099-616.jpg

 

     架构解读

 

     通过上述介绍,相信大家已经从产品角度对采云间有了一定认知。下面将从技术角度对采云间的架构做一个简单的解读。

 

     ■ 数据源支持:依托阿里云的飞天平台,采云间可以将ODPS作为DW的存储和计算引擎,并根据数据规模自动调整集群的存储和计算能力;采云间的数据分析和报表制作工具既可以支持ODPS数据源,也可以接入ADS和RDS作为数据源,并提供了各个数据源之间切换的功能,用户可以依据数据量、场景特点,选择合适的数据库。这三个产品在采云间数据分析场景下的选择依据如下。

 

TB1mtOVGVXXXXcaXVXXwIHNOVXX-361-72.jpg

 

     ■ Web架构:用户通过浏览器可以访问采云间的所有产品功能。采云间本身由多个系统组成,每个系统(无论是前端Web服务器,还是后端执行引擎)都可以通过增加集群的机器数量,实现服务能力的水平扩展。并可以通过Admin控制台对集群和服务进行管控。

 

     ■ 账号和权限:采云间有完整的权限模型,不仅可以透过ODPS对DB里的数据进行权限管理,也支持在应用层实现行级和列级的数据权限设置,同时考虑到企业级用户,不是每个企业员工都对应有阿里云账号,采云间的权限流程审批支持接入企业的内网系统。

 

     总结

 

     前文阐释了采云间的产品定位、应用步骤和架构思路,下面我们就来总结一下它的核心产品优势。

 

     ■ 依托阿里云飞天平台,天生具备大数据的处理能力,且具有很强的扩展能力。

 

     ■ 投入小,回报快。在线服务模式,无需部署,开通就可以使用;按需、按使用量付费,初期费用基本为零。

 

     ■ 提供更友好的操作界面,易于上手,从技术层面降低企业使用大数据的门槛。

 

     虽然采云间在阿里内部已得到广泛应用,但外部的产品仍处于公测期,在产品和技术上还有很多方面需要进一步完善和加强。欢迎大家现在可以申请试用,采云间和ODPS的产品运营团队将在12月选取少量用户进行重点服务,以进一步提升产品品质。相信通过采云间不断完善的全链路的数据处理工具,企业将更加容易收获大数据的价值。


周卫林
    花名敬智,有10年DW/BI领域工作经验,对该领域有深入了解和实践,坚信“数据创造价值”。目前在蚂蚁金服平台数据部担任核
TB1IIGZGVXXXXasXVXXHlzq4pXX-646-818.jpg
心架构师,带领团队完成大数据应用相关领域的技术研发,特别专注于实时计算、数据可视化等大数据技术的创新业务应用。
相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
3月前
|
SQL 搜索推荐 数据挖掘
一文详解报表工具和BI工具的区别
一文详解报表工具和BI工具的区别
|
6月前
|
存储 数据可视化 数据挖掘
【数据可视化和BI技术】数据可视化和BI技术的原理、方法和工具,如Tableau、Power BI
【数据可视化和BI技术】数据可视化和BI技术的原理、方法和工具,如Tableau、Power BI
104 0
|
4月前
|
数据可视化 BI Apache
大数据可视化BI分析工具Apache Superset实现公网远程访问
大数据可视化BI分析工具Apache Superset实现公网远程访问
|
10月前
|
SQL 存储 JSON
BI_01_一个BI工具的痛点
BI_01_一个BI工具的痛点
98 0
自助式商业智能 (BI) 工具
本文研究全球及中国市场自助式商业智能 (BI) 工具现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美、欧洲、中国、日本、东南亚和印度等地区的现状及未来发展趋势
云商业智能 (BI) 工具
本文研究全球及中国市场云商业智能 (BI) 工具现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美、欧洲、中国、日本、东南亚和印度等地区的现状及未来发展趋势
|
SQL 搜索推荐 数据可视化
运营也用的起来的数据分析工具:Quick BI即席分析详解
数据部门是一个容易被投诉的“高危”部门,需求响应慢、数据准确性不高会影响业务的发展。 然而数据分析师每周动辄就有几十个需求在手,无限的加班也无法解决所有问题,到底怎样才能改变BI分析师的需求响应问题呢?
443 0
|
数据挖掘 BI
【视频特辑】全链路开放集成!Gartner魔力象限上榜的BI工具你也可以拥有
Quick BI作为唯一一个连续两年入选Gartner魔力象限的中国BI产品,具备强大的全链路开放集成能力,可以轻松的与企业原有系统匹配融合
166 0
【视频特辑】全链路开放集成!Gartner魔力象限上榜的BI工具你也可以拥有
|
人工智能 开发框架 数据可视化
如何评估商业智能工具
如何评估商业智能工具
160 0
|
数据可视化 数据挖掘 大数据
【视频特辑】全链路开放集成!Gartner魔力象限上榜的BI工具你也可以拥有
Quick BI作为唯一一个连续两年入选Gartner魔力象限的中国BI产品,具备强大的全链路开放集成能力,可以轻松的与企业原有系统匹配融合
【视频特辑】全链路开放集成!Gartner魔力象限上榜的BI工具你也可以拥有

热门文章

最新文章