大数据一个隐含特征-大数据一个隐含特征文档介绍内容-移动阿里云

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

Transaction Table2.0概述

随着当前数据处理业务场景日趋复杂，很多业务场景并不要求延时秒级更新可见或者行级更新，更多的需求是分钟级或者小时级的近实时数据处理叠加海量数据批处理场景，MaxCompute支持基于Transaction Table2.0实现近实时的增全量一体的数据存储...

OSS数据安全防护最佳实践

DSC 在您完成数据源识别授权后，从您存储在OSS的海量数据中快速发现和定位敏感数据，对敏感数据分类分级并统一展示，同时追踪敏感数据的使用情况，并根据预先定义的安全策略，对数据进行保护和审计，以便您随时了解OSS数据资产的安全状态。...

整体架构

对于其中部分操作，Storage Service会根据数据特征、时序等多个维度综合评估，自动执行数据优化任务，尽可能保持稳定高效的数据存储和计算状态。元数据管理主要负责增量场景下事务并发冲突管理、数据版本管理、Time travel管理、元数据...

DataWorks On CDP/CDH使用说明

二、数据建模与开发模块说明相关文档数据建模数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行诠释，让企业内部实现“数同文”的...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

什么是备份数据量

常见概念在数据库备份DBS业务场景下，含有常见以下几个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量等。概念说明数据库磁盘空间数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲...

应用场景

云数据库HBase是一个键值/宽表型的分布式数据库，适用于任何数据规模，可以提供单个毫秒响应的性能，尤其擅长低成本、高并发的场景，支持水平扩展到PB级存储和千万级QPS，在淘宝、支付宝、菜鸟等众多阿里巴巴核心服务中起到了关键支撑的...

Trino概述

支持丰富的数据源：Hive Cassandra Kafka MongoDB MySQL PostgreSQL SQL Server Redis Redshift 本地文件支持高级数据结构，具体如下：数组和Map数据 JSON数据 GIS数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器 ...

应用场景

要深度并且快速的挖掘海量数据的关联特征，使用传统的方法则会面临非常大的技术挑战。通过图表示学习技术，提取知识图谱中的拓扑信息特征，作为风控模型的输入条件，参与模型训练，可以帮助金融机构构建更高精度的风控模型。商品推荐基于...

数据库分组

若您需要在SQL变更或结构设计中快速载入多个数据库，可以创建一个数据库分组，将多个数据库环境、引擎类型相同的数据库绑定成为一个分组。本文介绍如何创建数据库分组。背景信息当您的业务部署在多个地域，且存在多个数据库时，您每次做...

访问外部数据源

说明对于数据源绑定场景，如果多个数据源共用一个VPC下的交换机，打通其中一个数据源意味着相同交换机下的所有数据源一并打通。因此，只能打通同一Region下的数据源。在Databricks数据洞察控制台，进入集群详情页面。点击详情页面数据源 ...

数据接口配置说明

编辑数据接口基本信息每一个数据接口中包含多个参数内容，您可以自定义编辑数据接口的基本信息参数内容。名称：数据接口的名称。显示名：数据接口对外显示的名称。确认修改显示名后按回车键，结果会即时显示在配置面板中。描述：数据接口...

产品更新动态

2023年4月发布时间 2023-04-25 功能名称功能描述相关文档支持数据更新——实现卡片内容的动态数据呈现通过数据库连接方式的数据源，可以设置数据更新频率，手动/周期完成数据内容的更新，目前支持的可更新数据源是：MySQL、ADB MySQL...

数据接口配置说明

编辑数据接口基本信息每一个数据接口中包含多个参数内容，您可以自定义编辑数据接口的基本信息参数内容。名称：数据接口的名称。显示名：数据接口对外显示的名称。确认修改显示名后按回车键，结果会即时显示在配置面板中。描述：数据接口...

功能简介

一致性：数据一致性是指确保两个数据集之间或一个数据集内部不同字段间数值或信息的一致。唯一性：数据唯一性是指在一个数据集中，没有重复的记录或信息。时效性：数据时效性是指数据集按时、按量的更新程度。规范性：数据规范性是指数据集...

上传数据

添加完成数据文件后，在跳转后的添加数据对话框，选择数据的分组、输入数据集的名称、选择数据的类型和数据的服务地址，单击对话框右下角的创建数据集即可完成三维瓦片数据的添加。说明当数据量较大时解析时间会比较长，您可以先关闭弹...

上传数据

添加完成数据文件后，在跳转后的添加数据对话框，选择数据的分组、输入数据集的名称、选择数据的类型和数据的服务地址，单击对话框右下角的创建数据集即可完成三维瓦片数据的添加。说明当数据量较大时解析时间会比较长，您可以先关闭弹...

质量评估

质量评估通过用户自定义质量检查计划，根据用户设置的数据质量规则执行面向不同计算资源的质量检查任务，通过数据质量监控报告展现系统整体数据质量概览及多维度细分数据的质量情况。质量评估通过完整性、准确性、一致性、唯一性、时效性、...

ALTER DATABASE

第一种形式更改某些针对每个数据库的设置。只有数据库拥有者或者超级用户可以更改这些设置。第二种形式更改数据库的名称。只有数据库拥有者或者超级用户可以重命名一个数据库，非超级用户拥有者还必须拥有 CREATEDB 特权。当前数据库不能被...

SQL查询

工作空间已配置数据源：DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源，若要操作非引擎数据源，请确保已创建数据源，详情请参见创建并管理数据源。已拥有某数据源在数据分析模块的查询权限：...

添加数据集

DataV数据集支持多种数据源的接入，如数据库、excel表格文件等，通过对数据的结构化存储和元数据的汇集整理，提供高效实用的数据建模能力，可用的算子包括常见的数据聚合函数、按不同时间粒度划分、地理信息处理等。本文为您介绍如何在...

数据库管理

您可以在一个 AnalyticDB PostgreSQL 实例中创建多个数据库，但是客户端程序一次只能连接上并且访问一个数据库，无法跨数据库进行查询。创建数据库使用 CREATE DATABASE 命令创建一个新的数据库，命令如下：CREATE DATABASE[[WITH][OWNER...

数据模型架构规范

主要从数据业务特性和访问特性两个角度来考虑：将业务相近或者相关的数据、粒度相同数据设计为一个逻辑或者物理模型；将高概率同时访问的数据放一起，将低概率同时访问的数据分开存储。核心模型与扩展模型分离建立核心模型与扩展模型体系...

集群容灾能力

数据容灾在Hadoop分布式文件系统（HDFS）中，每一个文件的数据均是分块存储的，每一个数据块保存有多个副本（默认为3），并且尽量保证这些数据块副本分布在不同的机架之上。一般情况下，HDFS的副本系数是3，存放策略是将一个副本存放在...

创建Redis数据源

说明通常情况下，生产数据源和开发数据源需配置非同一个数据源，以使开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。参数描述 host Redis的连接地址。若您...

必读：简单模式和标准模式的区别

两个数据源中，其中一个数据源作为DataWorks开发环境，另一个作为DataWorks生产环境。说明开发环境与生产环境可以分别创建不同的数据源，例如：开发与生产环境添加不同的云实例。开发与生产环境添加同一个云实例的不同项目或数据库。不同...

创建Redis数据源

说明通常情况下，生产数据源和开发数据源需配置非同一个数据源，以使开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。参数描述 host Redis的连接地址。若您...

使用批量更新

本文介绍了 AnalyticDB PostgreSQL版中数据合并的方法和背后的原理，进而介绍如何使用批量操作，快速地更新数据。更新，又称为合并（Merge），指把数据最新版本更新到 AnalyticDB PostgreSQL版中。如果数据已经存在，则将它们替换为新...

功能概述

实现原理分析型数据库MySQL版的向量分析旨在帮助您实现非结构化数据的近似检索和分析，其实现原理是通过AI算法提取非结构化数据的特征，然后利用特征向量唯一标识非结构化数据，向量间的距离用于衡量非结构化数据之间的相似度。...

创建API数据源

通过创建API数据源能够实现Dataphin向API请求业务数据或向API请求写入数据。本文为您介绍如何创建API数据源。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加...

创建达梦（DM）数据源

通过创建达梦（DM）数据源能够实现Dataphin读取达梦（DM）的业务数据或向达梦（DM）写入数据。本文为您介绍如何创建达梦（DM）数据源。背景信息达梦（DM）属于OLTP类型数据库，被集成在业务系统中。达梦（DM）数据库吸收借鉴当前先进新...

创建API数据源

通过创建API数据源能够实现Dataphin向API请求业务数据或向API请求写入数据。本文为您介绍如何创建API数据源。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加...

创建Sap Table数据源

说明通常情况下，生产数据源和开发数据源需配置非同一个数据源，以使开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。参数描述 HOST SAP实例所在的服务器的...

创建Sap Table数据源

说明通常情况下，生产数据源和开发数据源需配置非同一个数据源，以使开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。参数描述 HOST SAP实例所在的服务器的...

创建达梦（DM）数据源

通过创建达梦（DM）数据源能够实现Dataphin读取达梦（DM）的业务数据或向达梦（DM）写入数据。本文为您介绍如何创建达梦（DM）数据源。背景信息达梦（DM）属于OLTP类型数据库，被集成在业务系统中。达梦（DM）数据库吸收借鉴当前先进新...

创建DataHub数据源

通过创建DataHub数据源能够实现Dataphin读取DataHub的业务数据或向DataHub写入数据。本文为您介绍如何创建DataHub数据源。背景信息 DataHub即阿里云流式数据服务DataHub，如果您使用的是阿里云流式数据服务DataHub，在对接Dataphin进行数据...