新零售大数据系统-新零售大数据系统文档介绍内容-移动阿里云

应用场景

实时数据通道接入多种异构数据并投递到下游多种大数据系统 通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。收益系统解耦...

大数据安全治理的难点

同时，大数据系统基于“存储、用户、入口、流转、交付”等多方面的特点，存在诸多安全治理难点。数据安全治理的关键问题数据安全治理能否清楚、准确地回答如下问题，将从侧面反映安全治理项目是否能有效地落地。哪些资产需要被保护？您有...

产品简介

大数据搬站迁云方案咨询为客户提供原大数据系统上云迁移方案咨询服务，包括云上大数据搬站架构规划、设计迁云方案服务。大数据专家高阶培训提供针对大数据建设、管理、治理相关的高阶能力培训，涵盖离线/实时数仓体系建设管理、数仓建模...

功能概览

生态融合：系出飞天，与阿里云大数据系统深度整合，无缝对接MaxCompute、实时计算、交互式分析等产品，打通整个大数据体系。产品功能数据接入：提供多种SDK、API和Flume、Logstash等第三方插件，高效便捷地把数据接入到数据总线。数据投递...

IoT数据自动化同步至云端解决方案

下图为您展示使用DataWorks数据集成完成OSS数据同步至大数据系统的解决方案流程。新建离线同步节点，详情请参见通过向导模式配置离线同步任务。选择数据来源OSS进行读取，详情请参见 OSS Reader。选择数据去向进行写入，本文以 MaxCompute...

Napatech案例

云原生多模数据库 Lindorm 助力Napatech大幅提升存储、索引性能。生态合作伙伴介绍 Napatech公司（OSE：NAPA.OL）是一家提供FPGA解决方案的丹麦公司，成立于2003年。公司总部位于丹麦，销售和支持的...集成第三方大数据系统，助力业务分析。

自媒体：易撰

所属行业：自媒体网站地址：易撰客户介绍长沙营智信息技术有限公司是专业的新媒体大数据服务商，其旗下知名品牌易撰，基于新媒体大数据挖掘技术及NLP算法分析，为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

生态集成

云原生数据仓库AnalyticDB PostgreSQL版具备完善和开放的生态系统，支持无缝对接业界以及阿里云生态的数据管理工具，BI报表可视化工具，ETL工具，数据迁移工具，同时可以与业界流行的流式处理系统，日志类系统，大数据类系统，传统数仓及...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

应用场景

背景信息设备将原始数据通过 MQTT 协议发送到物联网平台，经由物联网平台将数据转发到消息服务系统，继而通过流计算系统对这些数据进行实时计算处理后写入到 TSDB 中存储，或者经由物联网平台直接将原始数据写入 TSDB 中存储。前端的监控...

公交出行：启迪公交

通过承接公交信息化和智慧化项目建设，应用先进的互联网商业模式，将”人、车、线、站“的大数据资源及相关配套资源进行商业化转换，引领行业提升公交系统的创新能力和服务水平，助力“互联网+城市公交”的提升发展。业务挑战中国规模最大...

Alluxio（仅对存量用户开放）

背景信息在大数据生态系统中，Alluxio位于数据驱动框架或应用（例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等）和各种持久化存储系统（例如HDFS和阿里云OSS）之间，使得上层的计算应用可以通过统一的客户端API和...

数据集成操作指导

数据集成通常用于大型数据仓库系统中的周期性迁移。重要当前仅旧版DTS控制台支持数据集成功能。支持的源和目标数据库数据集成支持的源数据库和目标数据库与数据迁移支持的数据库相同。数据集成的基本步骤您可以通过以下步骤来创建和管理...

保险行业解决方案与案例

与此同时国寿数据应用全面进入实时化，通过DTS将 PolarDB PostgreSQL版（兼容Oracle）实时变化的数据同步到KAFKA平台，下游业务系统和大数据平台通过数据订阅以满足监管报送等各种场景；通过上线前完整兼容性评估，上线过程中全量SQL回归压...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多详情请参见 Apache Hudi官网。权限说明仅支持具备新建数据源权限点的自定义...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多详情请参见 Apache Hudi官网。权限说明仅支持具备新建数据源权限点的自定义...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

快照概述

什么是数据库文件系统快照数据库文件系统快照是某一时间点文件系统状态的备份文件，文件系统部署在云盘上，因此文件系统快照服务实际上基于云盘快照，对某个文件系统打快照相当于对该文件系统所部署的所有云盘同时打快照。文件系统第一份...

数仓分层

在本教程中，从交易数据系统的数据经过DataWorks数据集成，同步到数据仓库的ODS层。经过数据开发形成事实宽表后，再以商品、地域等为维度进行公共汇总。整体的数据流向如下图所示。其中，ODS层到DIM层的ETL（萃取（Extract）、转置...

数仓分层

在本教程中，从交易数据系统的数据经过DataWorks数据集成，同步到数据仓库的ODS层。经过数据开发形成事实宽表后，再以商品、地域等为维度进行公共汇总。整体的数据流向如下图所示。其中，ODS层到DIM层的ETL（萃取（Extract）、转置...

分析业务过程

为理清数据之间的逻辑关系和流向，首先需要理解用户的业务过程，了解过程中涉及到的数据系统。您可以采用过程分析法，将整个业务过程涉及的每个环节一一列清楚，包括技术、数据、系统环境等。在分析企业的工作职责范围（部门）后，您也可以...

分析业务过程

为理清数据之间的逻辑关系和流向，首先需要理解用户的业务过程，了解过程中涉及到的数据系统。您可以采用过程分析法，将整个业务过程涉及的每个环节一一列清楚，包括技术、数据、系统环境等。在分析企业的工作职责范围（部门）后，您也可以...

分析业务过程

为梳理数据之间的逻辑关系和流向，需要理解用户的业务过程及数据系统。您可以采用过程分析法，列出整个业务过程涉及的每个环节，包括技术、数据、系统环境等。分析完企业的工作职责范围（部门）后，借助工具通过逆向工程抽取业务系统的真实...

综合：网站用户画像分析

本案例以简单的网站用户画像分析为例，带您熟悉DataWorks的主要功能和常见任务，主要包含同步数据、加工数据、管理数据以及消费数据操作。案例目标案例预期通过本案例的实操，您将能够在DataWorks中独立完成数据同步、数据开发和任务运...

查看数据表资产详情

数据探查：若您开通了数据质量功能，可以为数据源表配置数据探查任务，快速了解数据概况，提前评估数据的可用性和潜在风险，如果您需要开启自动探查，可以在治理元数据中心探查及分析中开启相应配置，探查任务配置详情请参见新建数据...

DeltaLake

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

应用场景

数据标准：管理数据标准和构建数据模型，将数据标准贯彻到数据质量分析、保障及检查的全过程中，将散乱的多源异构数据加工成标准、干净的数据资产，确保数据的完整性、一致性、准确性和可用性。数据建模：通过数据建模模块提供的各种数据...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

Iceberg Table

本文为您介绍数据湖构建中Iceberg数据表的基本操作。表类型介绍特性采用湖格式Iceberg表,遵循 Apache Iceberg 的开放API规范，推荐使用 Apache Iceberg Client 读写。数据管理数据由DLF完全管理，包括元数据和实际数据文件。删除表时，...

数据源配置

数据源用于连接各类数据库和存储服务（如MaxCompute、MySQL、OSS等），是数据集成同步任务的必备配置，决定任务读取（数据来源）和写入（数据去向）的数据库。数据源的作用在数据集成任务中，数据源扮演着数据流动两端的“端点”角色：...

DB2数据源

DB2数据源作为数据中枢，为您提供读取和写入DB2数据库的双向通道，能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DB2数据同步的能力支持情况。支持的版本 DB2 Reader和DB2 Writer使用的DB2驱动版本为 IBM Data Server Driver ...

产品系列概述

互联网新零售行业、汽车制造行业、企业大型ERP系统等。变更系列基础系列升级为高可用系列：支持MySQL 5.7（基础系列）、MySQL 8.0（基础系列）基础系列升级为集群系列：支持MySQL 5.7（基础系列云盘）、MySQL 8.0（基础系列云盘）高可用...

产品系列

互联网新零售行业、汽车制造行业、企业大型ERP系统等。变更系列 PostgreSQL 10或以上版本的基础系列实例支持从基础系列升级为高可用系列。说明其它实例暂不支持变更实例系列，如需变更，您需要新建实例并将原实例数据迁移至新建实例上。...

数据恢复

数据恢复至云数据库MongoDB实例重要将数据恢复至新实例时，请注意以下事项：新实例的数据库大版本需与原实例相同。您需要根据原实例的数据库版本选择支持部署的可用区。不同数据库版本的实例，支持部署的可用区不同。关于不同数据库版本...

克隆快照

您可以基于已有的快照克隆出新的数据库文件系统。控制台上克隆快照在数据库文件存储控制台左侧导航栏点击快照进入数据库文件系统快照页面。在顶部菜单栏左上角处，选择地域。选择需要克隆的快照，在右侧操作列中单击克隆。设置文件...

离线同步数据质量排查

通过讲述数据集成数据同步的原理机制，理解数据同步的过程，进而对数据同步的执行效果有判断能力，判断数据同步效果具体包括：数据同步的数据量、目标端数据实际数量等。本文将为您列举一些常见数据质量方面的场景，方便您排查是否存在符合...

云原生大数据计算服务 MaxCompute系统权限策略参考

在产品迭代过程中，云原生大数据计算服务 MaxCompute会向系统策略中添加新的权限，用来支持新的功能和能力。系统策略的更新将会影响所有授予了该策略的 RAM 身份，包括 RAM 用户、RAM 用户组和 RAM 角色。有关 RAM 权限策略的更多信息，请...

数据源权限管理

本文为您汇总数据源权限管理相关的问题。哪些角色可以管理数据源的权限？是否支持再次分享已被分享的数据源？数据源的创建者是否有权控制该数据源？什么是私有模式的数据源？哪些用户能够收回数据源的分享权限？如何检查数据源分享关系的...