阿里云迁移规划

flowerwaiter 2019-07-28

互联网产品及应用 大数据 架构 OSS 数据库 数据迁移 存储 大数据分析 MaxCompute

自2017年阿里云落地了数据中台和业务中台的架构后,“中台”这一概念很快成为了许多企业数字化转型的技术评定标杆。一时间咨询公司的DT蓝图充斥着“中台化”、“大中台、小前台”,似乎脱离了这些描述,报告就不够高大上;相较而言,很多AIOPS的科技公司明明具备了中台化技术,但习惯用技术语言去表达,比如“客制化SPL语句模板”就明显LOW很多。
鉴于阿里云已经有自己的大数据产品了,“中台化”在很多情况下只是将本地数据迁移到阿里云,然后通过阿里云的GUI工具做客制化数据调取模板。顺着这一思路,首先我们把企业数据分为结构化数据(如Oracle,MySQL中的数据)、非结构化数据(如文本、图片、视频、音频)以及半结构化数据(如Log文件、XML文件、JSON文件),然后将这些数据集成到云端,这一阶段主要涉及数据的获取、转置和治理。
1
对于不同的数据,数据集成方式也有所不同。譬如离线数据,首先我们从数据库、本地文件或OSS对象存储中获取数据,然后进行数据清理工作将失实、重复、格式错误的数据删除;接下来对数据做前期探索分析(EDA),包括分析与建模,在这一过程中,元数据被打上名称型(Nominal)或序数型(Ordinal),间隔型(Interval)或比例性(Ratio)的标签,以便之后做完整分析,例如名称型/序数型标签通常用作统计分类,而间隔性/比例型标签通常用作统计数据。最后是数据入库,对接BI工具。
2
数据流通常通过Agent获取,包括应用程序、系统内置工具以及传感器,然后进入转置缓存通道,譬如一些常见的消息总线如Kafka,RabbitMQ,接下来是流处理程序,常见的有Storm、Samza、Storm和Flink(可参看本座之前写的介绍文章,这里就无法传送了),最后入库。
3
最后是实时数据,根据系统需要,上两类数据都可能要求很强的实时性以支持即时搜索或即时报表功能。
我们以离线数据为例,如下图,RDS中存放着企业的结构化数据,OSS中存储着非结构化或半结构化的数据。这些数据的元数据会转移到阿里云的Table Store中,主数据会记录在基于MaxCompute的对应RDS和OSS数据库中,应用层是基于负载均衡并能自动扩展的ECS集群以保障服务的高可用。
4
既然说到这了,那就来说说阿里云的MaxCompute,它其实是一个基于项目(Project)的存储引擎,或者说是一个面向存储对象的集成开发环境,犹如软件研发的集成开发环境Eclipse,或大数据分析的集成开发环境Jupyter。它也有非常丰富的命令行,例如使用tunnel命令就可以将数据下载到本地或上传到MaxCompute。
5
相较于命令行,这个IDE的亮点在于它的图形界面--Dataworks,在这个界面中,可以非常方便的创建云端RDS/OSS数据库,以及到源数据的连接。
6
在阿里云的架构中,不同的区域对应有不同的MaxCompute IP,因此在数据迁移时需要开放,根据创建时的站点选择,需要开放以下目标IP,包括说迁移完成后,数据需要对外发布服务的话,同样需要开放对应IP列表(篇幅有限就不一一列举了)。
*中国东部1(杭州) 100.64.0.0/8,11.193.102.0/24,11.193.215.0/24,11.194.110.0/24,11.194.73.0/24,118.31.157.0/24,47.97.53.0/24,11.196.23.0/24,47.99.12.0/24,47.99.13.0/24,114.55.197.0/24,11.197.246.0/24,11.197.247.0/24
中国东部2(上海) 11.193.109.0/24,11.193.252.0/24,47.101.107.0/24,47.100.129.0/24,106.15.14.0/24,10.117.28.203,10.117.39.238,10.143.32.0/24,10.152.69.0/24,10.153.136.0/24,10.27.63.15,10.27.63.38,10.27.63.41,10.27.63.60,10.46.64.81,10.46.67.156,11.192.97.0/24,11.192.98.0/24,11.193.102.0/24,11.218.89.0/24,11.218.96.0/24,11.219.217.0/24,11.219.218.0/24,11.219.219.0/24,11.219.233.0/24,11.219.234.0/24,118.178.142.154,118.178.56.228,118.178.59.233,118.178.84.74,120.27.160.26,120.27.160.81,121.43.110.160,121.43.112.137,100.64.0.0/8*
在数据迁移前,我们还能修改目标的对应字段,或添加新的字段。
7
导入OSS的步骤与RDS基本相同,同样是向导式操作,只是没有行列对应,需要手动定义正则以识别日志中的IP信息、时间、事件等信息。
8
采集上来之后,根据应用的需要,开发客制化的查询结果端口,以提高数据调用效率,这也就是中台化的本质啦~当然有不同意见的施主欢迎拍砖。

登录 后评论
下一篇
corcosa
8798人浏览
2019-10-08
相关推荐
云原生化的迁云实战
5681人浏览
2019-07-25 14:31:18
经典网络迁移VPC最佳实践
18775人浏览
2017-09-14 12:53:51
0
0
0
423