大数据建设规模-大数据建设规模文档介绍内容-移动阿里云

Dataphin支持的数据源

在使用Dataphin前，您需要选择符合业务场景需求的数据库或数据仓库作为数据源，用于读取原始数据和写入数据建设过程中的数据。Dataphin集成了丰富的数据引擎，支持接入MaxCompute、Hive等数据仓库，也支持对接企业传统数据库，如MySQL、...

Dataphin支持的数据源

在使用Dataphin前，您需要选择符合业务场景需求的数据库或数据仓库作为数据源，用于读取原始数据和写入数据建设过程中的数据。Dataphin集成了丰富的数据引擎，支持接入MaxCompute、Hive等数据仓库，也支持对接企业传统数据库，如MySQL、...

数仓构建流程

当数据的业务含义存在较大差异时，您可以创建不同的数据板块，让各成员独立管理不同的业务，后续数据仓库的建设将按照数据板块进行划分。在Dataphin中，项目可以归属至数据板块以实现规范建模功能，同一个数据板块中可能包含多个不同的项目...

数据源管理概述

在使用Dataphin前，您可将需要引入Dataphin的数据源接入到Dataphin中，已接入的数据源可用于读取原始数据和写入数据建设过程中的数据。Dataphin具备丰富的数据源类型接入，支持对接如MaxCompute、Hive等数据仓库，也支持对接企业传统数据库...

数据源管理概述

在使用Dataphin前，您可将需要引入Dataphin的数据源接入到Dataphin中，已接入的数据源可用于读取原始数据和写入数据建设过程中的数据。Dataphin具备丰富的数据源类型接入，支持对接如MaxCompute、Hive等数据仓库，也支持对接企业传统数据库...

什么是Dataphin

同时，Dataphin可以为您提升构建数据体系的效率，降低成本：提升效率：提供全链路、一站式、智能化的数据构建与管理工具，降低数据建设门槛。不同背景的开发人员可以自助ETL，快速满足业务需求。通过OneData（OneModel、OneID、OneService...

规范定义最佳实践

当数据的业务含义存在较大差异时，您可以创建不同的数据板块，让各成员独立管理不同的业务，后续数据仓库的建设将按照数据板块进行划分。在Dataphin中，项目可以归属至数据板块以实现规范建模功能，同一个数据板块中可能包含多个不同的项目...

规范定义最佳实践

当数据的业务含义存在较大差异时，您可以创建不同的数据板块，让各成员独立管理不同的业务，后续数据仓库的建设将按照数据板块进行划分。在Dataphin中，项目可以归属至数据板块以实现规范建模功能，同一个数据板块中可能包含多个不同的项目...

公告

2022年06月10日-Dataphin更名通知为了更好地帮助广大客户解决数据资产建设问题，显著提升数据治理水平，Dataphin将进一步加强资产治理方向的投入，正式更名为“智能数据建设与治理Dataphin”，希望能够更好的助力企业构建质量可靠、消费...

确定需求

业务调研充分的业务调研和需求分析是数据仓库建设的基石，直接决定数据仓库能否建设成功。在数仓建设项目启动前，您需要请相关的业务人员介绍具体的业务，以便明确各个团队的分析员、运营人员的需求，沉淀出相关文档。您可以通过调查表、...

租户设置

数据建设与治理开启后，可勾选目标租户所负责的功能模块。数据处理单元：设置数据处理单元配置数。数据处理单元配额需大于0，但不能超过剩余处理单元。规则配额：包括域内质量规则和全域质量规则，统计已开启监控的质量规则数。说明租户...

合规&认证

Dataphin智能数据建设与治理作为瓴羊开发云领域的核心产品，⾼度重视产品的合规性并积极对标国内和国际最⾼标准合规性要求。当前Dataphin产品的开发、测试、运维和运营服务均已通过 ISO 27001、ISO 27018 认证，意味着Dataphin 及瓴羊在...

配置DataHub输入组件

配置DataHub输入组件后，可以将DataHub数据源中的数据读取至大数据平台对接的存储系统内，并进行数据整合和二次加工。本文为您介绍如何配置DataHub输入组件。前提条件已创建离线单条管道，详情请参见通过单条管道创建集成任务。操作步骤 ...

配置DataHub输入组件

配置DataHub输入组件后，可以将DataHub数据源中的数据读取至大数据平台对接的存储系统内，并进行数据整合和二次加工。本文为您介绍如何配置DataHub输入组件。前提条件已创建离线单条管道，详情请参见通过单条管道创建集成任务。操作步骤 ...

DataWorks数据安全治理路线

DataWorks基于数据安全治理的常见思路，针对资产梳理、技术体系建设和运营体系建设，提供了一系列数据安全产品能力，您可通过“基础防护建设、数据安全防护措施及策略增强建设、数据安全持续运营”三个阶段在DataWorks上落地数据安全治理...

数据安全治理的常见思路

数据安全治理通常分为资产梳理及分类分级、风险评估、建设能力等三个阶段，您可参考本文了解各阶段的具体目标。数据安全治理通常会经历如下阶段。阶段一：摸清家底梳理资产摸清家底，产出《数据资产清单》。例如：本企业有哪些数据？服务...

配置Kafka输入组件

配置Kafka输入组件后，可以将kafka数据源中的数据读取至大数据平台对接的存储系统内，并进行数据整合和二次加工。本文为您介绍如何配置Kafka输入组件。前提条件在开始执行操作前，请确认您已完成以下操作：已创建Kafka数据源。具体操作，...

配置Kafka输入组件

配置Kafka输入组件后，可以将kafka数据源中的数据读取至大数据平台对接的存储系统内，并进行数据整合和二次加工。本文为您介绍如何配置Kafka输入组件。前提条件在开始执行操作前，请确认您已完成以下操作：已创建Kafka数据源。具体操作，...

数仓规划概述

数仓规划是基于Dataphin建设数据中台的第一步，同时也是数据体系的顶层设计中至关重要的一步。在您开始数据开发前，需要完成数据仓库的规划，包括定义数据板块、项目、数据源、计算源和统计周期。功能介绍数仓规划包括逻辑空间与物理空间...

配置FTP输入组件

FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内，进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。前提条件已创建FTP数据源，详情请参见创建FTP数据源。进行FTP输入组件属性配置的账号，需具备该数据源的同步...

配置FTP输入组件

FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内，进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。前提条件已创建FTP数据源，详情请参见创建FTP数据源。进行FTP输入组件属性配置的账号，需具备该数据源的同步...

数仓规划概述

数仓规划是基于Dataphin建设数据中台的第一步，同时也是数据体系的顶层设计中至关重要的一步。在您开始数据开发前，需要完成数据仓库的规划，包括定义数据板块、项目、数据源、计算源和统计周期。功能介绍数仓规划包括逻辑空间与物理空间...

资产安全概述

场景2：开发环境数仓建设敏感数据从生产环境写入开发环境过程中，您可以使用资产安全内置的敏感数据识别规则和脱敏规则，自动实现敏感数据的脱敏，确保敏感数据始终保留在高权限的生产环境，不会泄露到开发环境。场景3：脱敏白名单的灵活...

资产安全概述

场景2：开发环境数仓建设敏感数据从生产环境写入开发环境过程中，您可以使用资产安全内置的敏感数据识别规则和脱敏规则，自动实现敏感数据的脱敏，确保敏感数据始终保留在高权限的生产环境，不会泄露到开发环境。场景3：脱敏白名单的灵活...

元数据仓库共享模型概述

业务租户：统称为开发租户，进行数据中台建设的租户，即进行数据开发和治理的核心使用租户。一个Dataphin实例可以创建多个开发租户，由元仓租户在租户设置页面创建并分配可用资源（数据处理单元数、质量规则数等）。元仓共享模型数据说明 ...

离线集成管道通道配置

流量监控无流量时间阈值如读取数据与结果传输的过程中，由于查询与传输数据时间过久或数据库负载过大，无数据流量持续时间超过该时长，则置任务失败。默认30分钟，最小值为5，最大值为2880分钟（48小时）。单击确定，完成通道配置。后续...

离线集成管道通道配置

流量监控无流量时间阈值如读取数据与结果传输的过程中，由于查询与传输数据时间过久或数据库负载过大，无数据流量持续时间超过该时长，则置任务失败。默认30分钟，最小值为5，最大值为2880分钟（48小时）。单击确定，完成通道配置。后续...

数据服务系统配置

运维监控统计数据可帮助您查看最近某段时间的API运维数据，以便您更好的调整API，合理优化资源。本文为您介绍如何自定义运维监控配置。权限说明超级管理员支持修改系统配置。数据服务系统配置入口在Dataphin首页，单击顶部菜单栏服务。...

SQL可视化图表

本文为您介绍不同类型图表的适用场景，辅助您快速选取合适的图表进行数据呈现和展示。折线图折线图适用于展示在相等的时间间隔下数据的趋势走向，例如，分析商品销量随时间的变化，预测未来的销售情况。图例数据要素 X轴 Y轴拆分说明 ...

SQL可视化图表

本文为您介绍不同类型图表的适用场景，辅助您快速选取合适的图表进行数据呈现和展示。折线图折线图适用于展示在相等的时间间隔下数据的趋势走向，例如，分析商品销量随时间的变化，预测未来的销售情况。图例数据要素 X轴 Y轴拆分说明 ...

调试实时任务

Dataphin支持对开发的实时任务代码进行数据采样或者手动上传并进行本地调试，以帮助您保障代码任务的正确性，避免人为错误或遗漏。本文将为您介绍如何调试实时任务。使用限制 Blink仅支持引擎版本3.6.0及以上进行本地调试。不支持...

调试实时任务

Session集群调试方式：即通过Session集群进行调试，调试的数据为线上的真实数据且为流式数据（即来源表中写入数据时，将直接输出该条数据的计算结果，与真实线上运行任务的结果一致）。该方式下，Session集群提供Flink任务状态、日志和...

步骤一：准备工作

进行离线数仓建设前您需完成相关云资源的准备。云资源准备包括阿里云账号资源准备、Dataphin开通与AccessKey配置、MaxCompute计算源的开通与配置、以及数据源的准备。本文将指导您完成本教程的云资源准备工作。步骤一：阿里云账号资源准备 ...

资源监控

说明调度资源大盘的资源监控数据来源于Prometheus，请确保您后台部署的Prometheus监控服务处于正常状态，否则监控数据可能有误或无法展示。操作步骤使用元仓账号或系统管理员账号进入元仓租户。在Dataphin首页，单击顶部菜单栏管理中心...

创建Oracle数据源

通过创建Oracle数据源能够实现Dataphin读取Oracle的业务数据或向Oracle写入数据。本文为您介绍如何创建Oracle数据源。背景信息 Oracle是一款可移植好、可靠性好、适应高、功能强大的关系型数据库。如果您使用的是Oracle，在对接Dataphin...

创建Oracle数据源

通过创建Oracle数据源能够实现Dataphin读取Oracle的业务数据或向Oracle写入数据。本文为您介绍如何创建Oracle数据源。背景信息 Oracle是一款可移植好、可靠性好、适应高、功能强大的关系型数据库。如果您使用的是Oracle，在对接Dataphin...

配置Elasticsearch输入组件

同步Elasticsearch数据源的数据至其他数据源的场景中，您需要先配置Elasticsearch输入组件读取的数据源，再配置数据同步的目标数据源。本文为您介绍如何配置Elasticsearch输入组件。操作步骤请参见离线管道组件开发入口，进入离线单条...

调用API

在为企业建立API生态场景中，您需要调用API进行二次开发或开放API给合作伙伴等，帮助企业实现数据的资产化和价值化。本文为您介绍如何调用API。前提条件 API已发布至数据服务市场。具体操作，请参见测试与发布API。需先创建应用。具体操作...

配置逻辑表数据延迟

维度与事实逻辑表数据延迟用于自动重跑逻辑表在最大延迟天数周期内的全部数据。本文为您介绍如何配置维度与事实逻辑表数据延迟。使用限制事实逻辑表数据时效须为天时效（离线T+1）且该逻辑表设置了事件时间字段，才可配置是否开启数据...

配置逻辑表数据延迟

维度与事实逻辑表数据延迟用于自动重跑逻辑表在最大延迟天数周期内的全部数据。本文为您介绍如何配置维度与事实逻辑表数据延迟。使用限制事实逻辑表数据时效须为天时效（离线T+1）且该逻辑表设置了事件时间字段，才可配置是否开启数据...

大数据 建设规模

大数据建设规模