袋鼠云数据中台专栏(二) :数据资源规划与获取

简介: 数据资源规划是数据治理,数据建模,数据资产管理,数据指标体系规范等工作的前置环节和必要条件,因此数据资源规划的作用至关重要,包括数据资源梳理、数据资源规划实施、数据资源可视化、数据资源分析报告四部分内容。

0423bfbcb811cfbfd09228719949484708156921


本文作者:古明


10年以上技术应用经验沉淀,在金融、政府、互联网行业领域具有资深背景。曾担任过多个大型项目的项目经理或咨询总监,服务过云上贵州、浙江交通运输厅、天弘基金、新网银行等多家大型企事业单位。


正文:正文


  “人类已经由IT时代进入了DT时代,数据取代了石油成为了最核心的资源,在未来,数据会成为像水、电、石油一样的公共资源。”


——马云 2015年在杭州云栖大会发言


数据是未来社会最重要的资源之一。近年来由于互联网与大数据技术的不断发展,越来越多的企业也渐渐意识到对数据的开发和利用在企业发展过程中变得越来越重要。


但是由于企事业部门之间的系统分散开发或者些单位系统重建或引进系统开发项目,导致很多单位内部之间的信息不能共享,产生数据与信息孤岛;或者没有统一的数据规范和标准,造成数据整合的不便。数据还仅仅停留在散乱的资源阶段,离数据“变现”,形成数据资产的理想阶段,还相距甚远。


为解决上述问题,就需要企业自身进行合理有效的数据资源规划,梳理清楚企业自身的“数据家底,从而掌握企业当前数据资源的详实状况,明确企业的数据种类、未来可能获取的数据种类,以及这些数据的数据量、数据质量、数据用途等等。


数据资源规划是数据治理,数据建模,数据资产管理,数据指标体系规范等工作的前置环节和必要条件,因此数据资源规划的作用至关重要,包括数据资源梳理、数据资源规划实施、数据资源可视化、数据资源分析报告四部分内容。


ec8d66e4ed67dcd4ac30b330e6f27e4deb63d8a3


数据资源梳理:即企业需要梳理清楚:数据来自谁,用在何处,如何存储?一般而言,业内会从三个维度,来对数据资源进行分类管理,数据产生主体、数据来源、存储形式等。


7b325d1557a90c2c72123de5950181807c7a4dd7


2018年5月25日生效的GDPR法案要求, 企业必须明确满足数据主体的信息权,获取权,纠正权,限制处理权,反对权,删除权和数据可移动权等。


为了满足法案要求,合规,企业首先就要知道自己有哪些数据,数据存储在哪里,需要一个完整的数据地图,对每一个信息进行分类,为企业提供一个所有物理和数字信息的360度的视图,确保企业可有快速定位,评估和监控正在进行的基础上的所有数据。


8a1e133efcb4a5311857a2ddfbd7a4c6b3de7c8f


袋鼠云数据资源规划与获取服务,则无疑在思路、技术上都可以满足企业GDPR法案合规需求。



企业内外部数据资源可通过不同的渠道和方式获取,内部数据资源大多通过企业内部业务和应用系统数据库为数据源,外部数据资源主要通过埋点、爬虫等技术手段来获取。


埋点数据:通过App或网站埋点采集用户行为数据,典型的埋点数据应用场景包括用户行为分析,线上广告营销转化率分析等。


爬虫数据:使用爬虫程序获取第三方系统或网站的数据,典型的爬虫数据可应用于网络舆情分析和价格监测等场景。


日志数据:借助日志采集工具采集机器和应用产生的日志数据,典型的日志数据可用于系统服务异常监控,安全合规审计等场景。



数据资源规划实施:企业在数据资源规划与获取的过程中,除了需要企业内部提供有效的组织保障,包括数据管理人员、数据分析人员和业务使用人员之间的紧密协作,而且还需要全面的对整个企业或政府部门组织需求分析调研,这样才可有效帮助企业理清数据资源家底,明确数据资源获取与使用的方式方法。


数据资源可视化:


在数据中台理念下,我们所指的数据资源规划和获取一定是企业全局性的考量和行为。“牵一发而动全身”这必然会牵扯到各部门和各层级组织架构的利益。


如果能将现有数据资源梳理结果进行可视化呈现,让各子公司、各部门、各业务需求方都可以清晰了解自身数据资源现状,以及要满足自身数据应用需求,还需要获取哪些数据资源,还需要增加多少量的数据存储空间,还需要补充哪些外部数据,现有数据质量又如何,则可以大规模提高企业数据资源利用的效率。



a9e50ff69f5a534a6113d3244c29f66932821be9


数据资源分析报告:企业以前对自身数据资源的认识是模糊的,企业需要一份完整详备的数据资源分析报告,指导后续数据治理和数据资产管理平台的建设,最终服务于企业数据应用场景。为了满足客户的这一需求痛点,袋鼠云便将数据资源分析报告作为“数据资源规划与获取服务”的交付产出物之一。


“虽然数据还没有被列入企业的资产负债表,但这只是一个时间问题”。


——维克托·迈尔·舍恩伯格《大数据时代》


数据资源规划与获取是袋鼠云数据中台7大服务中的基础服务之一,从数据资源到数据资产,还必须经过数据治理和数据整体建模,即我们数据中台专栏下期要讲的,基于数据中台策略的数据整体建模和数据资产管理。


下期再见。


相关实践学习
使用CLup和iSCSI共享盘快速体验PolarDB for PostgtreSQL
在Clup云管控平台中快速体验创建与管理在iSCSI共享盘上的PolarDB for PostgtreSQL。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
1月前
|
关系型数据库 MySQL OLAP
PolarDB +AnalyticDB Zero-ETL :免费同步数据到ADB,享受数据流通新体验
Zero-ETL是阿里云瑶池数据库提供的服务,旨在简化传统ETL流程的复杂性和成本,提高数据实时性。降低数据同步成本,允许用户快速在AnalyticDB中对PolarDB数据进行分析,降低了30%的数据接入成本,提升了60%的建仓效率。 Zero-ETL特性包括免费的PolarDB MySQL联邦分析和PolarDB-X元数据自动同步,提供一体化的事务处理和数据分析,并能整合多个数据源。用户只需简单配置即可实现数据同步和实时分析。
|
1月前
|
存储 分布式计算 API
adb spark的lakehouse api访问内表数据,还支持算子下推吗
【2月更文挑战第21天】adb spark的lakehouse api访问内表数据,还支持算子下推吗
107 2
|
6月前
|
存储 Java 数据库连接
云数据仓库ADB不管是jdbc写入或者dts同步,均会存在丢数据的情况?
云数据仓库ADB不知道是不是磁盘出问题了不管是jdbc写入或者dts同步,均会存在丢数据的情况?
55 2
|
2月前
|
SQL 分布式计算 关系型数据库
Dataphin实现MaxCompute外表数据快速批量同步至ADB MySQL
当前大数据时代背景下,企业对数据的处理、分析和实时应用的需求日益增强。阿里云MaxCompute广泛应用于海量数据的ETL、数据分析等场景,但在将处理后的数据进一步同步至在线数据库系统,如ADB MySQL 3.0(阿里云自研的新一代云原生关系型数据库MySQL版)以支持实时查询、业务决策等需求时,可能会遇到数据迁移速度缓慢的问题。 DataphinV3.14版本支持外表导入SQL的带参调度,实现通过MaxCompute外表的方式将数据批量同步至ADB MySQL 3.0中,显著提升数据迁移的速度和效率。
286 1
|
7月前
|
SQL 弹性计算 分布式计算
基于星轨-数据中台工具的数据探查
使用DataWorks对MaxCompute进行数据探查,通过星轨-数据中台工具进行对MaxCompute的数据探查
210 0
|
3月前
|
SQL 人工智能 NoSQL
向量数据库测试写入查看数据
向量数据库测试写入查看数据
103 0
|
4月前
|
Cloud Native 关系型数据库 MySQL
云数据仓库ADB如何更新、删除和导入AnalyticDBMySQL数据-更新数据?
云数据仓库ADB如何更新、删除和导入AnalyticDBMySQL数据-更新数据?
81 0
|
4月前
|
Cloud Native 关系型数据库 MySQL
云数据仓库ADB问一下,数据批量导入失败的有地方导出吗?
云数据仓库ADB问一下,数据批量导入失败的有地方导出吗?
37 0
|
4月前
|
关系型数据库 MySQL OLAP
云数据仓库ADB如何更新、删除和导入AnalyticDBMySQL数据-更新数据?
云数据仓库ADB如何更新、删除和导入AnalyticDBMySQL数据-更新数据?
199 0
|
4月前
|
存储 数据采集 缓存
云数据仓库ADB问一下,数据批量导入失败的有地方导出吗?
云数据仓库ADB问一下,数据批量导入失败的有地方导出吗?
35 0