在线数据收集-在线数据收集文档介绍内容-移动阿里云

同步数据

创建日志表（ods_raw_log_d_spark）并解析数据数据通过离线集成任务同步至私有OSS数据源后，基于生成的OSS文件，通过EMR SPARK SQL创建的外部表 ods_raw_log_d_spark，用 LOCATION 来访问离线数据集成任务写入私有OSS对象存储 Bucket 的...

数据编辑器功能介绍

开启跳过点和线会忽略选中的点和线数据。几何差集：选中两个及以上面类型要素后单击图标执行面数据差集计算操作。开启跳过点和线会忽略选中的点和线数据。要素处理工具集要素处理工具集包括要素打散、要素剪裁、要素简化、面内...

计费说明-半托管

基础功能和增值功能智能研发版基础功能离线数据集成支持离线编码研发支持规范建模支持资产清单支持权限管理支持增值功能说明在购买了基础功能的前提下，您可以叠加购买增值功能包。实时集成可增购实时研发可增购智能运...

支持的数据源及同步方案

数据集成提供离线批处理同步、实时数据同步和整库迁移方案，可用于T+1离线数据ETL、秒级实时数据复制和整库迁移等场景。同步方案说明同步类型源粒度目标粒度时效性同步场景单表离线单张表单张表/分区 T+1 或周期性周期性全量、...

创建数据脱敏场景

通常用于对数据集成离线数据进行相关脱敏操作。该场景下，数据在存储过程中便会按照配置的脱敏规则识别敏感数据并将其脱敏，脱敏完成后再将数据存储至指定数据库位置。权限控制新增、编辑、删除脱敏场景：租户管理员、租户安全管理员可...

DataWorks模块使用指引

核心目标：建立稳定、可靠、可追溯的离线数据仓库体系。模块组合：实现方式：数据集成：每日凌晨，将业务库（如RDS）的增量数据同步至MaxCompute的数据引入层 ODS。智能数据建模：预先规划数仓分层，并设计好明细数据层DWD、汇总数据层DWS...

客户案例

客户需求海量数据处理效率下降，离线数据计算时长不稳定。实时计算开发维护成本高，希望对数仓进行综合治理。价值体现基于飞天大数据平台产品，快狗打车不仅机器成本节约30%以上，数据开发效率提升100%。从Java Storm迁移到Flink SQL使...

删除数据

请求路径和方法请求路径请求方法描述/api/delete_data POST 删除数据请求内容名称类型是否必需描述默认值举例 metric String 是待删除数据的 Metric 无 cpu tags Map 否待删除的时间线。该参数不是必选，在没有 tag 的情况下,...

组件操作

Alluxio 数据集成数据集成层的组件提供数据批量传输、实时消息流处理和分布式日志收集的能力，提升数据传输效率和数据收集的可靠性。组件类型组件名称组件说明常用文档开源 Flume Flume是一个分布式、可靠和高可用的系统，用于收集、...

产品更新动态-独享模式（半托管）

新增支持离线调度模板功能，计算任务调度、集成任务调度、逻辑表调度、派生指标和离线数据集对象根据引用的调度模板进行任务调度。数据库SQL新增支持DM（达梦）和openGauss数据源。元数据中心新增支持SelectDB、Doris、DM（达梦）采集源。...

血缘查看

离线数据T+1更新其血缘关系。各数据源使用限制 E-MapReduce DataLake或自定义集群若要在DataWorks管理元数据，需先在集群侧配置EMR-HOOK。若未配置，则在DataWorks中无法展示血缘关系。配置EMR-HOOK，详情请参见配置Hive的EMR-HOOK。EMR ...

标签资产市场概述

标签属性：包括标签的业务属性、技术属性、关联码表（若离线标签对应的离线数据集或行为关系字段关联了码表）信息。标签分布：包括标签统计和标签历史详情。标签统计：标签统计支持以条形图或柱状图的方式查看标签的统计信息和数据...

功能特性

当离线数据发生变化时，数据质量会对数据进行校验，并阻塞生产链路，以避免问题数据污染扩散。同时，数据质量提供历史校验结果的管理，以便您对数据质量进行分析和定级。详情请参见数据质量。数据质量为您解决以下问题：数据库频繁变更...

拓展组件

该图元的主要特征：一条弧线对应一个线数据，且线仅包含两个点，对应起点和终点。线具有流动动画，且具有方向性，动画配置项中的速度的正负可控制方向。飞线线型有“矢量”和“贴图”两种，“矢量”型由基线叠加高亮线组成，无需贴图；...

标签资产市场概述

标签属性：包括标签的业务属性、技术属性、关联码表（若离线标签对应的离线数据集或行为关系字段关联了码表）信息。标签分布：包括标签统计和标签历史详情。标签统计：标签统计支持以条形图或柱状图的方式查看标签的统计信息和数据...

数据导入方式介绍

离线数仓加速离线数据运行在 MaxCompute 等离线数仓上，单天数据增量达到几十GB甚至TB级，需要每天导入数据到 AnalyticDB for MySQL 进行数据加速分析。使用方法数据导入方式分为常规导入（默认）和弹性导入。常规导入在计算节点中读取源...

数据开发概述

Workflow：支持编排数十种引擎类型的实时及离线数据开发节点及AI节点的工作流研发模式。个人开发环境：支持运行Python节点开发及调试，支持Notebook交互式分析，以及集成Git代码管理与NAS/OSS存储。Notebook：智能化交互式数据开发和分析...

数据开发（Data Studio）（新版）

Workflow：支持编排数十种引擎类型的实时及离线数据开发节点及AI节点的工作流研发模式。个人开发环境：支持运行Python节点开发及调试，支持Notebook交互式分析，以及集成Git代码管理与NAS/OSS存储。Notebook：智能化交互式数据开发和分析...

产品更新动态-共享模式（全托管）

新增支持离线调度模板功能，计算任务调度、集成任务调度、逻辑表任务调度、派生指标和离线数据集对象根据引用的调度模板进行任务调度。数据库SQL新增支持DM（达梦）和openGauss数据源。元数据中心新增支持SelectDB、Doris、DM（达梦）采集...

洞察考生流向，助力地摊经济精准布局

原始数据作用浙江省招生一段线.csv 存放浙江省2023年普通类高校招生投档分数线数据，以及高校信息数据（例如，所在省份、城市等）。用于分析各省份的分数线及招生计划。浙江省招生二段线.csv 高校信息.csv 居民人均消费支出.csv 用于分析...

功能更新动态（2023年）

标签工厂新手指引创建行为统计标签创建行为偏好标签创建规则组合标签离线数据集概述分析平台新增SQL查询功能，支持保存、预编译、加速查询、运行、分享、参数配置、格式化、定位SQL查询任务；支持查看SQL的查询任务结果、任务日志及...

审计日志

自定义数据源（支持新建离线数据源和实时数据源）AddCustomDataSource 创建实时自定义数据源。UpdateCustomDataSource 更新实时自定义数据源。DeleteCustomDataSource 删除实时自定义数据源。我的权限 ApplyPrivilege 申请权限。...

线图层

线宽基础设置：拖动滑块或输入数字，设置线数据的线宽，范围为0~10，单位为px。尺寸映射：单击图标，打开尺寸映射配置，详情请参见尺寸映射器。后期效果说明后期效果中的设置项默认关闭，您可以根据需求配置。改变设置项顺序，会叠加...

增量数据同步

在离线数据同步页面，单击新增任务，在离线数据同步管理页面，配置离线同步周期任务。填写基本信息，任务名称“信用卡客户数据上云_增量”。在源端配置区域，配置数据源端。参数说明示例数据源必选项，数据来源端的数据源类型...

同步数据至Hive

支持的同步类型单表离线支持数据来源：数据集成模块数据来源支持的所有数据源类型配置指导：离线同步任务配置整库离线支持数据来源：MySQL 配置指导：数据集成侧同步任务配置配置案例 MySQL整库离线同步至Hive

同步数据至StarRocks

支持的同步类型单表离线支持数据来源：数据集成模块数据来源支持的所有数据源类型配置指导：离线同步任务配置单表实时支持数据来源：Kafka 配置指导：数据集成侧同步任务配置整库离线支持数据来源：MySQL 配置指导：数据集成侧同步...

同步数据至Elasticsearch

支持的同步类型单表离线支持数据来源：数据集成模块数据来源支持的所有数据源类型配置指导：离线同步任务配置单表实时支持数据来源：DataHub、Kafka、LogHub、MySQL、PolarDB 配置指导：配置单表实时同步任务整库离线支持数据来源：...

数据模型

数据库在存储数据时，会将同一条时间线的数据尽量聚类存储，提升时间线数据访问效率，同时更好的支持时序数据压缩。在时序表中，Tag列的值都相同的一系列数据行构成了一条时间线。时序数据库提供一系列特有的数据访问操作，包括聚合...

同步数据至Hologres

支持的同步类型单表离线支持数据来源：数据集成模块数据来源支持的所有数据源类型配置指导：离线同步任务配置单表实时支持数据来源：DataHub、Hologres、Kafka、LogHub 配置指导：数据集成侧同步任务配置整库离线支持数据来源：...

同步数据至Doris

支持的同步类型单表离线支持数据来源：数据集成模块数据来源支持的所有数据源类型配置指导：离线同步任务配置单表实时支持数据来源：Hologres 配置指导：数据集成侧同步任务配置整库实时支持数据来源：MySQL、PostgreSQL 配置指导：...

同步数据至Kafka

支持的同步类型单表离线支持数据来源：数据集成模块数据来源支持的所有数据源类型配置指导：离线同步任务配置单表实时支持数据来源：DataHub、Hologres 配置指导：数据集成侧同步任务配置整库实时支持数据来源：MySQL、Oracle、...

同步数据至MaxCompute

支持的同步类型单表离线支持数据来源：数据集成模块数据来源支持的所有数据源类型配置指导：离线同步任务配置单表实时支持数据来源：DataHub、Kafka、LogHub 配置指导：数据集成侧同步任务配置整库离线支持数据来源：Amazon ...

同步数据至Data Lake Formation

支持的同步类型单表离线支持数据来源：数据集成模块数据来源支持的所有数据源类型配置指导：离线同步任务配置单表实时支持数据来源：Kafka、LogHub 配置指导：数据集成侧同步任务配置整库实时支持数据来源：ApsaraDB for OceanBase...

调试实时任务

Session集群调试方式：即通过Session集群进行调试，调试的数据为线上的真实数据且为流式数据（即来源表中写入数据时，将直接输出该条数据的计算结果，与真实线上运行任务的结果一致）。该方式下，Session集群提供Flink任务状态、日志和...

副本数据管理CDM（Copy Data Management）

典型应用场景基于线上数据的开发测试（Dev或Ops）测试和预发布需要基于线上存量数据验证，但又必须保护线上数据不被污染。沙箱功能可以快速提供历史全量数据副本，同时满足快速测试迭代和数据可靠性保障需求。在线应急容灾基于沙箱的备份...

离线同步写入MongoDB数据

准备示例数据表本实践需准备一个MongoDB数据集合、一个MaxCompute表，用于后续进行离线数据同步。准备MaxCompute表并构造表数据。创建一个名称为 test_write_mongo 的分区表，分区字段为 pt。CREATE TABLE IF NOT EXISTS test_write_mongo...

冷热分离

背景信息冷热分界线是冷数据归档的依据，搜索引擎会根据数据存储量和查询时间覆盖的范围来确定需要将多久之前的数据归档至冷存储。Lindorm将容量型云存储作为冷存储介质，价格仅为标准型云存储的20%，大大降低了存储成本。冷热分界线的...

某网约车公司车辆轨迹数据

解决方案在原有的架构上引入了阿里云数据库，并将全量数据写到云原生多模数据库 Lindorm 中，同时增量数据通过Kafka、Spark等实时同步到云原生多模数据库 Lindorm，这样解决了客户线下数据库数据过大的问题。客户需要存储最近3年的数据...

研发链路透视

数据资产治理支持您按照研发链路（数据同步和数据开发）查看和分析工作空间内DataWorks离线同步任务和DataWorks调度任务运行情况及资源消耗详情。便于您了解当前花费较多的资源类别、识别运行失败的任务，合理调整消费结构，发现阻塞任务...

轨迹线层（v3.x版本）

轨迹线层子组件拥有交互配置，可单击某个线或鼠标移入到线时，触发数据请求，抛出回调值，实现在单击或鼠标移入到线时，动态加载不同线的数据。默认抛出所单击区域的 id 值，具体配置请参见如何配置数字翻牌器组件的回调ID。蓝图编辑器...