在线大数据-在线大数据文档介绍内容-移动阿里云

公共数据集数据源

DataWorks 内置了开箱即用的公共数据集数据源，帮助您零配置快速体验单表离线数据同步。本文为您介绍DataWorks的公共数据集数据同步能力支持情况。支持的数据集详情及地域支持的公共数据集列表以及数据集的详情参见 DataWorks Gallery 云...

某网约车公司车辆轨迹数据

解决方案在原有的架构上引入了阿里云数据库，并将全量数据写到云原生多模数据库 Lindorm 中，同时增量数据通过Kafka、Spark等实时同步到云原生多模数据库 Lindorm，这样解决了客户线下数据库数据过大的问题。客户需要存储最近3年的数据...

统一服务

批量离线数据服务的源头为MaxCompute的数据表，服务封装为根据分区获取分区内全部数据的API。非结构化数据服务的源头为OSS，服务封装为根据文件名称返回文件数据流。通过空间服务发布将空间数管中的各类型空间数据发布成行业标准的空间服务...

功能简介

批量离线数据服务的源头为MaxCompute的数据表，服务封装为根据分区获取分区内全部数据的API。非结构化数据服务的源头为OSS，服务封装为根据文件名称返回文件数据流。通过空间服务发布将空间数管中的各类型空间数据发布成行业标准的空间服务...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

数据服务

DataWorks数据服务模块是一个灵活轻量、安全稳定的数据API构建平台，作为数据库和数据应用之间的“桥梁”，DataWorks数据服务旨在为个人、团队和企业提供全面的数据服务和共享能力，帮助用户统一管理面向内外部的API服务。例如，您可以将...

数据服务概述

DataWorks数据服务模块是一个灵活轻量、安全稳定的数据API构建平台，作为数据库和数据应用之间的“桥梁”，DataWorks数据服务旨在为个人、团队和企业提供全面的数据服务和共享能力，帮助用户统一管理面向内外部的API服务。例如，您可以将...

名词解释

时间精度：时间线数据的写入时间精度——毫秒、秒、分钟、小时或者其他稳定时间频度。例如，每秒一个温度数据的采集频度，每 5 分钟一个CPU使用率的采集频度。数据组（Data Group）：如果需要对比不同监测对象（由标签定义）的同一指标（由...

技术架构选型

数据计算层数据计算能力以MaxCompute为核心，承担数据仓库的大规模离线计算任务。选型理由：强大的分布式批处理能力，适用于大规模存储与运算。成本可控，存算分离，按量付费。与 DataWorks、数据治理能力强耦合，可集成研发、质量、安全...

同步数据

创建日志表（ods_raw_log_d_spark）并解析数据数据通过离线集成任务同步至私有OSS数据源后，基于生成的OSS文件，通过EMR SPARK SQL创建的外部表 ods_raw_log_d_spark，用 LOCATION 来访问离线数据集成任务写入私有OSS对象存储 Bucket 的...

同步数据

创建日志表（ods_raw_log_d_spark）并解析数据数据通过离线集成任务同步至私有OSS数据源后，基于生成的OSS文件，通过EMR SPARK SQL创建的外部表 ods_raw_log_d_spark，用 LOCATION 来访问离线数据集成任务写入私有OSS对象存储 Bucket 的...

近实时数仓

大数据平台普遍采用离线、实时、流三种引擎组合的方式以满足用户实时性和高性价比的需求。但是很多业务场景并不要求延时秒级更新可见或者行级更新，更多的需求是分钟级或者小时级的近实时数据处理叠加海量数据批处理场景，MaxCompute在原有...

创建数据脱敏场景

通常用于对数据集成离线数据进行相关脱敏操作。该场景下，数据在存储过程中便会按照配置的脱敏规则识别敏感数据并将其脱敏，脱敏完成后再将数据存储至指定数据库位置。权限控制新增、编辑、删除脱敏场景：租户管理员、租户安全管理员可...

标签资产市场概述

标签属性：包括标签的业务属性、技术属性、关联码表（若离线标签对应的离线数据集或行为关系字段关联了码表）信息。标签分布：包括标签统计和标签历史详情。标签统计：标签统计支持以条形图或柱状图的方式查看标签的统计信息和数据...

DataWorks模块使用指引

核心目标：建立稳定、可靠、可追溯的离线数据仓库体系。模块组合：实现方式：数据集成：每日凌晨，将业务库（如RDS）的增量数据同步至MaxCompute的数据引入层 ODS。智能数据建模：预先规划数仓分层，并设计好明细数据层DWD、汇总数据层DWS...

离线集成

数据管理DMS离线集成是一种低代码的数据开发工具，您可以组合各类任务节点，形成数据流，通过周期调度运行达到数据加工、数据同步的目的。支持的数据库类型 MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、PolarDB分布式版、AnalyticDB...

热力线层

渐变速度：热力线层渐隐渐显的速度，值越大则速度越快。最小值颜色：数据中 value 值最小的线的颜色。最大值颜色：数据中 value 值最大的线的颜色，请参见颜色选择器说明进行修改。最大透明度：热力线的最大透明度，根据数据中每条线对应...

热力线层

渐变速度：热力线层渐隐渐显的速度，值越大则速度越快。最小值颜色：数据中value值最小的线的颜色。最大值颜色：数据中value值最大的线的颜色，请参见颜色选择器说明进行修改。最大透明度：热力线的最大透明度，根据数据中每条线对应的...

MySQL数据源

Binlog至少保留72小时以上，避免任务失败后因Binlog已经消失，再启动无法重置位点到故障发生前而导致的数据丢失（此时只能使用全量离线同步来补齐数据）。检查Binlog是否开启。使用如下语句检查Binlog是否开启。SHOW variables LIKE"log_...

ClickHouse数据源

支持的版本支持的阿里云ClickHouse版本及JDBC驱动兼容关系如下：JDBC 驱动版本阿里云ClickHouse内核版本 0.2.4 20.8、21.8 0.4.0 22.8、23.8 使用限制 ClickHouse数据源仅支持离线读写能力，以下为具体内容。支持使用 Serverless资源组...

路网轨迹层

图表样式路网轨迹层是3D地球的子组件，支持独立的样式和数据配置，包括轨迹线的长宽、运动速度、颜色以及轨迹点经纬度等，适用于模拟地理位置两点或多点之间的运动行为轨迹。配置面板搜索配置：单击配置面板右上角的搜索配置，可在 ...

技术架构选型

在数据模型设计之前，您需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。

产品优势

多场景支持：支持离线数仓搭建、数仓提速、离线数据分析、数据中台搭建、大规模数据集成、离线计算、异构数据集成等。低门槛：近乎零代码，简单配置连线后即可满足各项离线数据集成任务，同时任务支持复杂调度。基于资产的虚拟湖：配合数据...

MaxCompute数据源

是无 table 读取数据表的表名称（大小写不敏感）。是无 partition 读取的数据所在的分区信息。ODPS的分区配置支持Linux Shell通配符，*表示0个或多个字符，?表示任意一个字符。默认情况下，读取的分区必须存在，如果分区不存在则运行的...

路网轨迹层

图表样式路网轨迹层是3D地球的子组件，支持独立的样式和数据配置，包括轨迹线的长宽、运动速度、颜色以及轨迹点经纬度等，适用于模拟地理位置两点或多点之间的运动行为轨迹。样式面板搜索配置：单击样式面板右上角的搜索配置项图标，可...

副本数据管理CDM（Copy Data Management）

相比现有基于大数据平台的历史数据离线分析方案，沙箱功能提供原始数据库SQL接口，不需要开发人员编写离线分析脚本，并由于使用快照存储机制，存储成本也更低。费用说明更多信息，请参见沙箱费用。相关操作 RDS MySQL应急恢复自建MySQL...

洞察考生流向，助力地摊经济精准布局

原始数据作用浙江省招生一段线.csv 存放浙江省2023年普通类高校招生投档分数线数据，以及高校信息数据（例如，所在省份、城市等）。用于分析各省份的分数线及招生计划。浙江省招生二段线.csv 高校信息.csv 居民人均消费支出.csv 用于分析...

MaxCompute表数据

创建MaxCompute数据源并绑定至DataWorks数据开发后，您可以直接在数据地图进行MaxCompute表的相关操作。包括数据检索、数据预览、查看元数据详情、查看数据血缘关系、分类分组管理数据表、数据洞察等操作。本文为您介绍如何在数据地图查看...

100 splitInterval:6h mem:Xms6G-Xmx6G 1.5 MB 230000 12分钟30秒 CPU占比为30%2 总时间线数据为600万总数据点数为2592000000 1 channel:10 oidCache:true oidBatch:100 splitInterval:6h mem:Xms8G-Xmx8G 292 MB 200000 2小时55分钟30秒 ...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 StarRocks 支持不支持 Hudi 支持支持 Doris 支持不支持 GreenPlum 支持支持 TDengine ...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 Kudu 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 ...

合理配置基线承诺时间和预警余量

背景信息智能基线能够及时捕捉导致任务无法按时完成的异常情况并提前预警，保障复杂依赖场景下重要数据能在预期时间内顺利产出。详情请参见：智能基线概述。基线承诺时间是任务运行成功的最晚时间点。即面向数据应用，任务承诺在该时间点...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

产品简介

服务内容服务大类服务类型服务内容 大数据专家咨询服务 大数据技术架构方案咨询为客户提供构建和优化大数据体系的技术架构方案咨询服务，覆盖离线/实时数仓体系建设管理、数仓建模管理，数据开发管理，数据安全管理、数据质量管理、...

轨迹线层（v3.x版本）

轨迹线层子组件拥有交互配置，可单击某个线或鼠标移入到线时，触发数据请求，抛出回调值，实现在单击或鼠标移入到线时，动态加载不同线的数据。默认抛出所单击区域的 id 值，具体配置请参见如何配置数字翻牌器组件的回调ID。蓝图编辑器...

Spark

使用场景离线ETL 离线ETL主要应用于数据仓库，对大规模的数据进行抽取（Extract）、转换（Transform）和加载（Load），其特点是数据量大，耗时较长，通常设置为定时任务执行。在线数据分析（OLAP）在线数据分析主要应用于BI（Business ...

轨迹线层（v3.x版本）

高级面板打开开关，开启组件交互功能，可单击某条线或鼠标移入线上时，触发数据请求，抛出临时变量，实现在单击或鼠标移入到线时，动态加载不同线的数据。默认抛出所单击区域的 id 值，具体配置请参见组件交互配置。蓝图交互单击页面...

元数据检索

DataWorks 数据地图是一个集中的数据资产管理与发现平台。它帮助您全面了解企业内的数据状况，并像使用搜索引擎一样，快速、准确地找到您需要的数据。核心功能包括：数据总览：提供数据资产的统计视图，帮助您快速洞察数据现状。全局关键字...

同步数据至Hive

支持的同步类型单表离线支持数据来源：数据集成模块数据来源支持的所有数据源类型配置指导：离线同步任务配置整库离线支持数据来源：MySQL 配置指导：数据集成侧同步任务配置配置案例 MySQL整库离线同步至Hive