大数据具有以下四个基本特征-大数据具有以下四个基本特征文档介绍内容-移动阿里云

配置MySQL输出组件

选择Dataphin系统已配置的数据源，且数据源需同时具备以下两个条件：数据源的类型与输出组件的类型一致。执行属性配置的账号具有该数据源的同步写权限，如果没有权限，则需要申请数据源权限。更多信息，请参见申请、续期和交还数据源...

配置MySQL输出组件

选择Dataphin系统已配置的数据源，且数据源需同时具备以下两个条件：数据源的类型与输出组件的类型一致。执行属性配置的账号具有该数据源的同步写权限，如果没有权限，则需要申请数据源权限。更多信息，请参见申请、续期和交还数据源...

ActionTrail日志清洗

DLA提供ActionTrail日志自动清洗解决方案，可以将ActionTrail投递到OSS的日志文件转换为DLA中可以直接查询的数据表，同时自动对数据进行分区和压缩，方便您分析和审计对云产品的操作日志。日志分析痛点 ActionTrail是阿里云提供的云账号...

发展历程

2017年 TPC的benchmark适配MaxCompute，进行了全球首次基于公共云的BigBench大数据基准测试，数据规模拓展到100 TB，成为首个突破7000分的引擎，性能达到7830 QPM。获得中国国际软件博览会金奖。中国电子学会科技进步特等奖（被业界誉为...

典型场景

典型场景数据仓库服务您可以通过数据传输服务（DTS）或数据集成服务（DataX），将云数据库（例如RDS、PolarDB）或自建数据库批量同步到云原生数据仓库AnalyticDB PostgreSQL版。云原生数据仓库PostgreSQL版支持对海量数据的复杂ETL进行...

新建数据元

数据元管理通过分析业务流程，抽象关键业务对象和业务对象属性，并把关键业务对象新建为数据元，并配置数据元的类型、长度、质量校验函数和引用数据字典，为模型标准化设计及数据治理过程中的质量监控提供规则依据。本文介绍如何新建数据元...

新建数据元

数据元管理通过分析业务流程，抽象关键业务对象和业务对象属性，并把关键业务对象新建为数据元，并配置数据元的类型、长度、质量校验函数和引用数据字典，为模型标准化设计及数据治理过程中的质量监控提供规则依据。本文介绍如何新建数据元...

导入概述

导入方式支持的格式 Broker Load Parquet、ORC、CSV、GZIP Stream Load CSV、GZIP、JSON Routine Load CSV、JSON 导入说明 Apache Doris的数据导入有以下共性特征。导入的原子性保证 Doris的每一个导入作业，不论是使用Broker Load进行...

数据模型概述

数据模型（Data Model）是数据特征的抽象，它从抽象层次上描述了系统的静态特征、动态行为和约束条件，为数据库系统的信息表示与操作提供一个抽象的框架。DDM目前支持逻辑模型和物理模型建模，其中物理模型又分为关系型数据模型和非关系型...

磁盘空间诊断

查询数据空间查询数据空间包括以下内容：数据库通过PG客户端执行 \l，可以查看每个数据库的空间占用情况注意该操作需要遍历目录树，会有较高的CPU和IO开销。表对于占用空间较大的数据库，可以通过客户端连接到该数据库，执行 \d 查看该...

库表结构优化

要做好库表结构设计和优化，用户通常需要关注以下信息：数据库引擎架构用户需要了解数据库引擎的存储和计算架构特点，才能结合业务的数据分布特征与业务场景特征，进行数据建模，从而设计出符合引擎架构特点的数据表结构。SQL特征差异 ...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有多种不同的定义方法，给后期进行数据汇集和整合带来障碍。因此，数据处理的前奏就是数据标准化，数据标准作为一个统一的数据共识，在标准...

功能概述

实现原理分析型数据库MySQL版的向量分析旨在帮助您实现非结构化数据的近似检索和分析，其实现原理是通过AI算法提取非结构化数据的特征，然后利用特征向量唯一标识非结构化数据，向量间的距离用于衡量非结构化数据之间的相似度。...

ECS实例说明

大数据型使用本地SATA盘作存储数据，存储性价比高，是大数据量（TB级别的数据量）场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点；Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型使用本地...

性能测试

只有小部分查询耗时与开源GeoMesa（HBase）和云数据库MongoDB分片集群相同，测试结果如下：总结从测试过程和结果来看，Lindorm Ganos引擎相比于开源GeoMesa（HBase）和云数据库MongoDB分片集群具有以下优势：使用简单，通过SQL语句方便...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

特征管理

本文介绍了在PolarDB for AI中，特征管理的适用场景，以及创建特征、更新特征、查看特征状态、查看特征列表以及删除特征的语法及其示例内容。适用场景从原始数据直接构建机器学习模型往往比较困难。机器学习模型的输入一般会先对原始数据...

配置识别模板

数据安全中心为不同行业（例如金融、能源、汽车行业）提供了识别敏感数据的解决方案，即内置的识别模板。使用识别模板可以检测您资产中是否存在敏感数据。您可以直接使用内置的识别模板，也可以基于内置模板自定义识别模板。本文介绍如何...

OSS/OSS-HDFS概述

背景信息阿里云对象存储OSS（Object Storage Service）是一款海量、安全、低成本、高可靠的云存储服务，可提供99.9999999999%（12个9）的数据持久性，99.995%的数据可用性。多种存储类型供选择，全面优化存储成本。更多信息，请参见什么...

基本柱图（v3.0以下版本）

基本柱图是柱状图的一种，相比弧形柱图，基本柱图组件支持自定义y轴区间和多个系列的数据配置，能够更加智能地展示多维的数据差异基本柱图，但在可视化应用中占的空间较大。本文介绍基本柱图各配置项的含义件。配置重要本文介绍v3.0以下...

01新建模型目录

DWD：全称Data Warehouse Detail，明细数据层，该层数据和源数据基本保持一致，保存着最细粒度的数据，一般存放所有的明细数据，是所有后期分析的数据基础。具有数据量大，查询计算较慢的特点。DWS：全称Data Warehouse Summary，汇总数据...

概述

AnalyticDB PostgreSQL版向量分析可以通过AI算法提取非结构化数据的特征，并利用特征向量作为非结构化数据的唯一标识，帮您快速且低成本地实现对非结构化数据检索和对结构化数据关联分析。向量数据库简介在现实世界中，绝大多数的数据都...

客户案例

DataWorks在多个行业中均有典型的案例落地，帮助多个行业的企业解决数据痛点，挖掘数据价值，本文为您介绍典型行业中已落地的客户案例。新零售行业：大润发云上数据中台建设客户架构如下。客户简介为了快速数字化转型，拥抱新零售，...

表设计最佳实践

属性的数据变化较小，但天气信息数据采用多个终端采集，且数据量较大。天气信息变化较大，但在终端数量稳定的情况下流量基本稳定。表设计指南建议将数据信息划分为基本属性表和天气日志表，分别用于存储变化小和变化大的数据。因为天气...

DataWorks模块使用说明

使用流程概览：参考文档：数据集成概述数据建模与开发子模块：数据建模功能说明：数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行...

非结构化分析

的向量分析特性针对非结构化数据检索分析，与普通的检索系统有较大的差异，主要体现在下面的几点：结构化和非结构化混合分析例如，可以检索与输入图片中的连衣裙相似度最高、价格在100元到200元之间且上架时间在最近1个月以内的产品。...

云产品集成

常见云产品如下：大数据开发治理平台 DataWorks 实时计算 Flink 版数据库管理 DMS DataV 数据可视化 Quick BI 数据分析与展现前提条件已获取 OceanBase 数据库的基本连接信息，详细步骤请参见获取连接参数。大数据开发治理平台 ...

配置自定义区域右下角组件数据

可视化应用创建完成后，您可以通过以下方式配置全国疫情分布可视化应用中右下角自定义区域内组件的数据。前提条件已完成可视化应用的创建，详情请参见创建可视化应用。参见快速选中自定义区域面板内组件，选择自定义区域右下角面板内的...

聚合支付方案

阿里云从业务扩展性、数据流动性、服务高可用三方面入手，通过多款云数据库产品为利楚扫呗制定聚合支付方案，解决利楚扫呗在业务扩展期遇到的数据存储空间不足、读写性能下降以及大数据分析空缺等问题。业务痛点武汉利楚商务服务有限公司...

JindoFS块存储模式

容易容易容易缩容操作容易容易需Decommission 容易数据本地化无弱强较强 JindoFS块存储模式具有以下几个特点：海量弹性的存储空间，基于OSS作为存储后端，存储不受限于本地集群，而且本地集群能够自由弹性伸缩。能够利用本地...

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

配置自定义区域右下角组件数据

可视化应用创建完成后，您可以通过以下方式配置全国疫情分布可视化应用中右下角自定义区域内组件的数据。前提条件已完成可视化应用的创建，详情请参见创建可视化应用。参见快速选中自定义区域面板内组件，选择自定义区域右下角面板内的...

基本柱状图（v3.0及以上版本）

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

实验介绍

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集，...

API概览

数据库网关提供以下相关API接口。网关管理 API 描述 CreateGateway 调用CreateGateway创建一个新网关。ModifyGateway 调用ModifyGateway修改网关的基本信息。DeleteGateway 调用DeleteGateway删除网关信息。StopGateway 调用StopGateway...

基本概念

您可以在使用前了解云数据库 Redis 版的基本概念，从而更好地理解与使用 Redis 数据库。概念说明实例ID 每个实例对应一个用户空间，实例是使用云数据库Redis版的基本单位。Redis 对单个实例根据不同的容量规格有不同的连接数、带宽、...

应用场景

输出主题式数据服务，提高数据化运营效率场景：某公司是一家大型跨省直营餐饮品牌公司，具有线上线下多个客户触达渠道，以爆款思维策划公司品牌。痛点：因业务扩张快，用户数据丰富，拉新留存效率、营销及转化效果急需提高。但各个获客...

项目编辑器页面管理

项目编辑器内可分为四个区域，包括空间实体、通用元素、数据详情和项目地图空间范围。本文介绍项目编辑器页面中各个功能的使用方法。空间实体空间实体包括环境、建筑、三维瓦片和地理服务等。环境：包括水体、绿地、道路和遥感影像...

X-Engine最佳实践

X-Engine的分层存储架构特别适合具有如下业务负载特征的业务：数据访问具有鲜明的时间特征。例如大部分读取及修改操作集中在最近写入的数据上，而历史数据较少被访问。X-Engine通过将最新写入的数据缓存在内存中并通过高效数据结构进行索引...