栈问栈答 | 关于袋鼠云数栈,产品经理在线官方解答

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 袋鼠云数栈3.0版本开始实现商业化以来,已经应用到教育行业、政府行业、旅游行业的浙江大学、山西商务厅、中金易云、京东方、杭州互联网法院、西溪国家湿地公园、西湖风景名胜区、国家电网、云南中烟、常州旅游商贸高等职业技术学校等众多客户,帮助客户搭建和升级大数据计算开发平台,管理大规模数据资源,用工具化和可视化的方式高效进行数据治理,对数据资产进行创新应用,在复杂多元的业务场景中发挥数据价值。

1

袋鼠云数栈3.0版本开始实现商业化以来,已经应用到教育行业、政府行业、旅游行业的浙江大学、山西商务厅、中金易云、京东方、杭州互联网法院、西溪国家湿地公园、西湖风景名胜区、国家电网、云南中烟、常州旅游商贸高等职业技术学校等众多客户,帮助客户搭建和升级大数据计算开发平台,管理大规模数据资源,用工具化和可视化的方式高效进行数据治理,对数据资产进行创新应用,在复杂多元的业务场景中发挥数据价值。

在客户实际使用数栈的过程中,也有一些用户对数栈的功能、使用、价值提出了不少疑问,袋鼠云数栈产品团队将这些问题都一一认真收集下来,并收录在“栈问栈答”系列专栏里,和所有的数栈用户分享,敬请期待。

栈问栈答 · 数据质量

使用袋鼠云数栈的某教育行业客户,在之前的信息化过程中建设了多个系统,已经意识到自身数据孤立的现状,面对TB级的数据量,需要更高效的方式进行数据治理和分析,为业务方提供高质量数据。

其实,数据治理不仅仅是教育行业用户的痛点,同样也是其他行业进行大数据平台建设和数据应用,最亟需解决的难题。

针对这一问题,袋鼠云数栈基于十年实践经验沉淀的多种校验规则,打造了完整的全流程数据质量闭环管理机制,同时支持数据迁移&逻辑变更的双表逐行校验场景。

2

类似以下问题,袋鼠云数栈都能统统搞定!

A:有很多ETL任务,任务运行正常,由于数据源有变动,或开发修改了代码,测试不充分,导致数据经常出问题。最后还是业务方发现后,才反馈给开发排查原因。

使用数栈

可对关键任务配置数据质量校验规则,任务跑完产出数据,并经过质量校验通过后,才流入到下游,给到数据需求方。

3

B:开发人员维护ETL任务,由于业务规则的变更或者新需求的迭代,需要经常修改ETL任务逻辑。每次修改后比对数据,耗费大量的时间。

使用数栈

通过数据质量产品的双表校验功能,自动比对修改前,修改后的数据,输出比对结果,无需人工干预。

4

C:需要把在某平台运行的任务迁移到另外一个平台,同时保证迁移前后数据的一致性。以往则需要人工或写程序进行校验,真的是费时费力。

使用数栈

通过数据质量产品的双表校验功能,自动比对迁移前后的两个平台的数据,输出比对结果。

5

Vol.1 栈问栈答 

栈问:在数据抽取的过程中,数栈能否对数据的正确性进行判断?

栈答:对这个问题,数栈可以提供2个解决方法:一种是在数据同步环节就进行脏数据相关的配置;还有一种是在数据加工全流程环节进行数据质量监控的配置;

也就是说,从数据的同步到整个数据加工全流程,袋鼠云数栈都非常重视数据质量和数据治理,保障用户数字化建设过程数据资产的高质量。

解法一、脏数据配置

在数据同步执行的过程中可能会出现因主键冲突、格式转换错误等各种原因造成部分数据无法正常写入,不能被正常写入的数据即被视为“脏数据”。

脏数据配置在数据同步配置模块中,在数据同步任务的通道控制步骤中,可配置是否需要记录脏数据,并可指定存储脏数据的表名、生命周期。

6


袋鼠云数栈-脏数据配置模块

栈问:如何查看脏数据,对数据质量做到心中有数?

栈答:在数栈-任务管理-脏数据管理模块中可以查看脏数据的产生趋势、产生脏数据最多的任务,以及每一张产生脏数据表的情况:

7


数栈-脏数据查看

脏数据产生趋势

选中某个任务后,可以查看此任务在最近一段时间产生脏数据的数量,支持最近3天、7天、30天、60天的数据查看。

脏数据产生TOP30任务

通过观察产生脏数据数量较大的任务,可以针对性的排查此任务的配置信息、源数据库的数据质量等问题,及时解决问题。

解法二、数据质量配置

作为数据资产管理的一部分,数据质量的保障与提升是一个大数据平台所需的必备功能。通常含义的数据质量包括及时性、完整性、一致性、有效性、准确性。

数据质量模块可以根据不同的业务场景,针对数据表提供表行数、空值数、空值率、重复数、重复率等二十余种统计函数,校验方法支持固定值检测、1天波动检测、7天波动值变化检测、30天波动值检测、7天平均波动检测、30天平均波动检测,告警阀值支持灵活的自定义。

栈问:如何使用数栈创建质量监控任务?

栈答:创建质量监控任务分为以下3个步骤:

8


数栈-创建数据质量监控任务

Step1:选择数据源,选择需要校验的表

点击顶部菜单的规则配置-新建监控规则,进入配置页面,选择需要进行检测的数据表(表名为 muyun_test),点击下一步。

Step2:针对全表、每个字段配置校验规则

进入监控规则步骤,点击添加字段规则,并选中id字段,统计函数选择空值数,校验方法为固定值,阈值配置为=0,点击保存,并点击下一步。

Step3:调度周期配置

选择调度周期为天,其他参数无需修改,点击新建,即可完成配置。

栈问:我们数据库一部分用的是Oracle,一部分是MySQL,你们数栈支持哪些数据源的校验和数据质量管理?

栈答:数栈数据质量模块支持MySQL,Oracle,SQL Server,

PostgreSQL,Hive,MaxCompute等多种数据源,满足大多数场景下的质量校验需求。

栈问:数栈的数据校验颗粒度到什么级别?

栈答:基于阿里数据生产的实战经验,数栈内置20余种校验规则,支持表级、字段级2类规则,并提供字段级、表级校验报告,具备历史数据统计功能,辅助用户定位数据质量的问题根源。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
0
0
0
32667
分享
相关文章
|
6月前
|
【数据结构】栈和队列(c语言实现)(附源码)
本文介绍了栈和队列两种数据结构。栈是一种只能在一端进行插入和删除操作的线性表,遵循“先进后出”原则;队列则在一端插入、另一端删除,遵循“先进先出”原则。文章详细讲解了栈和队列的结构定义、方法声明及实现,并提供了完整的代码示例。栈和队列在实际应用中非常广泛,如二叉树的层序遍历和快速排序的非递归实现等。
589 9
|
6月前
|
非递归实现后序遍历时,如何避免栈溢出?
后序遍历的递归实现和非递归实现各有优缺点,在实际应用中需要根据具体的问题需求、二叉树的特点以及性能和空间的限制等因素来选择合适的实现方式。
150 58
|
4月前
|
【C++数据结构——栈与队列】顺序栈的基本运算(头歌实践教学平台习题)【合集】
本关任务:编写一个程序实现顺序栈的基本运算。开始你的任务吧,祝你成功!​ 相关知识 初始化栈 销毁栈 判断栈是否为空 进栈 出栈 取栈顶元素 1.初始化栈 概念:初始化栈是为栈的使用做准备,包括分配内存空间(如果是动态分配)和设置栈的初始状态。栈有顺序栈和链式栈两种常见形式。对于顺序栈,通常需要定义一个数组来存储栈元素,并设置一个变量来记录栈顶位置;对于链式栈,需要定义节点结构,包含数据域和指针域,同时初始化栈顶指针。 示例(顺序栈): 以下是一个简单的顺序栈初始化示例,假设用C语言实现,栈中存储
244 77
|
3月前
|
STL——栈和队列和优先队列
通过以上对栈、队列和优先队列的详细解释和示例,希望能帮助读者更好地理解和应用这些重要的数据结构。
41 11
☀☀☀☀☀☀☀有关栈和队列应用的oj题讲解☼☼☼☼☼☼☼
### 简介 本文介绍了三种数据结构的实现方法:用两个队列实现栈、用两个栈实现队列以及设计循环队列。具体思路如下: 1. **用两个队列实现栈**: - 插入元素时,选择非空队列进行插入。 - 移除栈顶元素时,将非空队列中的元素依次转移到另一个队列,直到只剩下一个元素,然后弹出该元素。 - 判空条件为两个队列均为空。 2. **用两个栈实现队列**: - 插入元素时,选择非空栈进行插入。 - 移除队首元素时,将非空栈中的元素依次转移到另一个栈,再将这些元素重新放回原栈以保持顺序。 - 判空条件为两个栈均为空。
|
4月前
|
【C++数据结构——栈与队列】环形队列的基本运算(头歌实践教学平台习题)【合集】
【数据结构——栈与队列】环形队列的基本运算(头歌实践教学平台习题)【合集】初始化队列、销毁队列、判断队列是否为空、进队列、出队列等。本关任务:编写一个程序实现环形队列的基本运算。(6)出队列序列:yzopq2*(5)依次进队列元素:opq2*(6)出队列序列:bcdef。(2)依次进队列元素:abc。(5)依次进队列元素:def。(2)依次进队列元素:xyz。开始你的任务吧,祝你成功!(4)出队一个元素a。(4)出队一个元素x。
157 13
【C++数据结构——栈与队列】环形队列的基本运算(头歌实践教学平台习题)【合集】
|
4月前
|
【C++数据结构——栈与队列】链栈的基本运算(头歌实践教学平台习题)【合集】
本关任务:编写一个程序实现链栈的基本运算。开始你的任务吧,祝你成功!​ 相关知识 初始化栈 销毁栈 判断栈是否为空 进栈 出栈 取栈顶元素 初始化栈 概念:初始化栈是为栈的使用做准备,包括分配内存空间(如果是动态分配)和设置栈的初始状态。栈有顺序栈和链式栈两种常见形式。对于顺序栈,通常需要定义一个数组来存储栈元素,并设置一个变量来记录栈顶位置;对于链式栈,需要定义节点结构,包含数据域和指针域,同时初始化栈顶指针。 示例(顺序栈): 以下是一个简单的顺序栈初始化示例,假设用C语言实现,栈中存储整数,最大
86 9
|
4月前
|
C++
【C++数据结构——栈和队列】括号配对(头歌实践教学平台习题)【合集】
【数据结构——栈和队列】括号配对(头歌实践教学平台习题)【合集】(1)遇到左括号:进栈Push()(2)遇到右括号:若栈顶元素为左括号,则出栈Pop();否则返回false。(3)当遍历表达式结束,且栈为空时,则返回true,否则返回false。本关任务:编写一个程序利用栈判断左、右圆括号是否配对。为了完成本关任务,你需要掌握:栈对括号的处理。(1)遇到左括号:进栈Push()开始你的任务吧,祝你成功!测试输入:(()))
134 7
数据结构的栈
栈作为一种简单而高效的数据结构,在计算机科学和软件开发中有着广泛的应用。通过合理地使用栈,可以有效地解决许多与数据存储和操作相关的问题。
180 21
在C语言中,数据结构是构建高效程序的基石。本文探讨了数组、链表、栈、队列、树和图等常见数据结构的特点、应用及实现方式
在C语言中,数据结构是构建高效程序的基石。本文探讨了数组、链表、栈、队列、树和图等常见数据结构的特点、应用及实现方式,强调了合理选择数据结构的重要性,并通过案例分析展示了其在实际项目中的应用,旨在帮助读者提升编程能力。
135 5
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等