大数据在线-大数据在线文档介绍内容-移动阿里云

增量导出发布包

标签：包括离线数据集、离线标签、行为关系。数据标准：包括码表目录、标准集目录、公共标准属性、标准模板、标准集、数据标准、落标映射规则、映射关系、码表、词根。数据质量：包括规则模板、质量规则。数据安全：包括数据分类、数据分级...

增量导出发布包

标签：包括离线数据集、离线标签、行为关系。数据标准：包括码表目录、标准集目录、公共标准属性、标准模板、标准集、数据标准、落标映射规则、映射关系、码表、词根。数据质量：包括规则模板、质量规则。数据安全：包括数据分类、数据分级...

同步数据

创建日志表（ods_raw_log_d_spark）并解析数据数据通过离线集成任务同步至私有OSS数据源后，基于生成的OSS文件，通过EMR SPARK SQL创建的外部表 ods_raw_log_d_spark，用 LOCATION 来访问离线数据集成任务写入私有OSS对象存储 Bucket 的...

同步数据

创建日志表（ods_raw_log_d_spark）并解析数据数据通过离线集成任务同步至私有OSS数据源后，基于生成的OSS文件，通过EMR SPARK SQL创建的外部表 ods_raw_log_d_spark，用 LOCATION 来访问离线数据集成任务写入私有OSS对象存储 Bucket 的...

数仓分层

该数据分类架构在ODS层分为三部分：数据准备区、离线数据和准实时数据区。整体数据分类架构如下图所示。在本教程中，从交易数据系统的数据经过DataWorks数据集成，同步到数据仓库的ODS层。经过数据开发形成事实宽表后，再以商品、地域等为...

数仓分层

该数据分类架构在ODS层分为三部分：数据准备区、离线数据和准实时数据区。整体数据分类架构如下图所示。在本教程中，从交易数据系统的数据经过DataWorks数据集成，同步到数据仓库的ODS层。经过数据开发形成事实宽表后，再以商品、地域等为...

路网轨迹层

透明度系数：轨迹线上点的颜色透明度值，取值范围0.01~1，数值越大，透明度越大。数据面板该组件数据为GeoJson格式，关于数据格式以及数据获取方法，请参见地图数据格式和基础平面地图的地理边界geojson数据接口。配置字段说明字段 ...

创建数据脱敏场景

通常用于对数据集成离线数据进行相关脱敏操作。该场景下，数据在存储过程中便会按照配置的脱敏规则识别敏感数据并将其脱敏，脱敏完成后再将数据存储至指定数据库位置。权限控制新增、编辑、删除脱敏场景：租户管理员、租户安全管理员可...

公共数据集数据源

DataWorks 内置了开箱即用的公共数据集数据源，帮助您零配置快速体验单表离线数据同步。本文为您介绍DataWorks的公共数据集数据同步能力支持情况。支持的数据集详情及地域支持的公共数据集列表以及数据集的详情参见 DataWorks Gallery 云...

近实时数仓

大数据平台普遍采用离线、实时、流三种引擎组合的方式以满足用户实时性和高性价比的需求。但是很多业务场景并不要求延时秒级更新可见或者行级更新，更多的需求是分钟级或者小时级的近实时数据处理叠加海量数据批处理场景，MaxCompute在原有...

统一服务

批量离线数据服务的源头为MaxCompute的数据表，服务封装为根据分区获取分区内全部数据的API。非结构化数据服务的源头为OSS，服务封装为根据文件名称返回文件数据流。通过空间服务发布将空间数管中的各类型空间数据发布成行业标准的空间服务...

路网轨迹层

透明度系数：轨迹线上点的颜色透明度值，取值范围0.01~1，数值越大，透明度越大。数据源面板字段说明 geometry 定义type类型为"LineString。coordinates 定义两个或多个经纬度坐标位置。properties 定义value字段，配合配置中的最大宽度...

功能简介

批量离线数据服务的源头为MaxCompute的数据表，服务封装为根据分区获取分区内全部数据的API。非结构化数据服务的源头为OSS，服务封装为根据文件名称返回文件数据流。通过空间服务发布将空间数管中的各类型空间数据发布成行业标准的空间服务...

入仓解决方案

入仓解决方案包括：实时同步任务：基于离线数据集成的数据传输服务。新建实时同步任务，请参见新建实时同步任务。实时迁移任务：基于数据传输服务DTS的数据传输服务。新建实时迁移任务，请参见新建实时迁移任务。说明基于DTS的数据同步...

DataWorks模块使用指引

DataWorks 是阿里云提供的一站式大数据开发与治理平台，旨在帮助用户解决从数据接入、处理、治理到服务化的全链路数据问题。它通过一系列高度协同的功能模块，将复杂的数据工程流程化、可视化，显著降低了大数据开发的门槛。本文将为您逐一...

热力线层

渐变速度：热力线层渐隐渐显的速度，值越大则速度越快。最小值颜色：数据中 value 值最小的线的颜色。最大值颜色：数据中 value 值最大的线的颜色，请参见颜色选择器说明进行修改。最大透明度：热力线的最大透明度，根据数据中每条线对应...

名词解释

时间精度：时间线数据的写入时间精度——毫秒、秒、分钟、小时或者其他稳定时间频度。例如，每秒一个温度数据的采集频度，每 5 分钟一个CPU使用率的采集频度。数据组（Data Group）：如果需要对比不同监测对象（由标签定义）的同一指标（由...

标签资产市场概述

标签属性：包括标签的业务属性、技术属性、关联码表（若离线标签对应的离线数据集或行为关系字段关联了码表）信息。标签分布：包括标签统计和标签历史详情。标签统计：标签统计支持以条形图或柱状图的方式查看标签的统计信息和数据...

热力线层

渐变速度：热力线层渐隐渐显的速度，值越大则速度越快。最小值颜色：数据中value值最小的线的颜色。最大值颜色：数据中value值最大的线的颜色，请参见颜色选择器说明进行修改。最大透明度：热力线的最大透明度，根据数据中每条线对应的...

ClickHouse数据源

支持的版本支持的阿里云ClickHouse版本及JDBC驱动兼容关系如下：JDBC 驱动版本阿里云ClickHouse内核版本 0.2.4 20.8、21.8 0.4.0 22.8、23.8 使用限制 ClickHouse数据源仅支持离线读写能力，以下为具体内容。支持使用 Serverless资源组...

技术架构选型

在数据模型设计之前，您需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。

MaxCompute表数据

创建MaxCompute数据源并绑定至DataWorks数据开发后，您可以直接在数据地图进行MaxCompute表的相关操作。包括数据检索、数据预览、查看元数据详情、查看数据血缘关系、分类分组管理数据表、数据洞察等操作。本文为您介绍如何在数据地图查看...

MySQL数据源

Binlog至少保留72小时以上，避免任务失败后因Binlog已经消失，再启动无法重置位点到故障发生前而导致的数据丢失（此时只能使用全量离线同步来补齐数据）。检查Binlog是否开启。使用如下语句检查Binlog是否开启。SHOW variables LIKE"log_...

MaxCompute数据源

是无 table 读取数据表的表名称（大小写不敏感）。是无 partition 读取的数据所在的分区信息。ODPS的分区配置支持Linux Shell通配符，*表示0个或多个字符，?表示任意一个字符。默认情况下，读取的分区必须存在，如果分区不存在则运行的...

某网约车公司车辆轨迹数据

解决方案在原有的架构上引入了阿里云数据库，并将全量数据写到云原生多模数据库 Lindorm 中，同时增量数据通过Kafka、Spark等实时同步到云原生多模数据库 Lindorm，这样解决了客户线下数据库数据过大的问题。客户需要存储最近3年的数据...

产品优势

多场景支持：支持离线数仓搭建、数仓提速、离线数据分析、数据中台搭建、大规模数据集成、离线计算、异构数据集成等。低门槛：近乎零代码，简单配置连线后即可满足各项离线数据集成任务，同时任务支持复杂调度。基于资产的虚拟湖：配合数据...

洞察考生流向，助力地摊经济精准布局

原始数据作用浙江省招生一段线.csv 存放浙江省2023年普通类高校招生投档分数线数据，以及高校信息数据（例如，所在省份、城市等）。用于分析各省份的分数线及招生计划。浙江省招生二段线.csv 高校信息.csv 居民人均消费支出.csv 用于分析...

副本数据管理CDM（Copy Data Management）

相比现有基于大数据平台的历史数据离线分析方案，沙箱功能提供原始数据库SQL接口，不需要开发人员编写离线分析脚本，并由于使用快照存储机制，存储成本也更低。费用说明更多信息，请参见沙箱费用。相关操作 RDS MySQL应急恢复自建MySQL...

100 splitInterval:6h mem:Xms6G-Xmx6G 1.5 MB 230000 12分钟30秒 CPU占比为30%2 总时间线数据为600万总数据点数为2592000000 1 channel:10 oidCache:true oidBatch:100 splitInterval:6h mem:Xms8G-Xmx8G 292 MB 200000 2小时55分钟30秒 ...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 StarRocks 支持不支持 Hudi 支持支持 Doris 支持不支持 GreenPlum 支持支持 TDengine ...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 Kudu 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 ...

元数据检索

DataWorks 数据地图是一个集中的数据资产管理与发现平台。它帮助您全面了解企业内的数据状况，并像使用搜索引擎一样，快速、准确地找到您需要的数据。核心功能包括：数据总览：提供数据资产的统计视图，帮助您快速洞察数据现状。全局关键字...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

合理配置基线承诺时间和预警余量

背景信息智能基线能够及时捕捉导致任务无法按时完成的异常情况并提前预警，保障复杂依赖场景下重要数据能在预期时间内顺利产出。详情请参见：智能基线概述。基线承诺时间是任务运行成功的最晚时间点。即面向数据应用，任务承诺在该时间点...

Spark

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

外部表概述

背景信息 MaxCompute SQL作为分布式数据处理的主要入口，可实现EB级别离线数据的快速处理和存储。随着大数据业务的不断扩展，新的数据使用场景在不断产生，MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

云消息队列 Kafka 版数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，便于分析加工离线数据。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版购买并...