大数据在线统计-大数据在线统计文档介绍内容-移动阿里云

路网轨迹层

透明度系数：轨迹线上点的颜色透明度值，取值范围0.01~1，数值越大，透明度越大。数据源面板字段说明 geometry 定义type类型为"LineString。coordinates 定义两个或多个经纬度坐标位置。properties 定义value字段，配合配置中的最大宽度...

如何选取统计信息自动采集策略

同Auto analyze一致不涉及注意事项在表数据量比较大的情况下，存储节点可能由于执行统计信息采集任务，在凌晨出现IOPS增高的情况。在非凌晨时间出现IOPS升高，有可能是以下两种情况：表数据量过大，导致统计信息采集任务针对单个逻辑表...

创建MySQL to MaxCompute离线同步周期任务

通过选择已注册的数据源端数据和目标端，实现全量任务自动建表的方式创建离线同步周期任务，本文介绍如何创建MySQL to MaxCompute离线同步周期任务。前提条件已新建工作组“信息中心(xxzx)”，具体操作，请参见新建工作组。已在工作组中...

热力线层

图表样式热力线层是3D地球的子组件，支持独立的样式和数据配置，包括线的长宽、渐变速度和颜色以及经纬度等，适用于绘制地理位置上的线条元素。配置面板搜索配置：单击配置面板右上角的搜索配置，可在搜索配置面板中输入您需要搜索...

数据传输与迁移概述

数据传输渠道 SDK-Tunnel渠道外表（湖仓一体）JDBC渠道场景数据写入MaxCompute 离线数据批量写入（数据通道）场景特征。周期调度任务（天、小时级别调用）。对数据延迟不敏感（只要在调度周期执行完成即可满足需求）。典型场景。类型 ...

事件中心

在事件中心页，单击事件和建议页签，查看选定时间范围内各类事件的统计数据和趋势图。说明选择时间范围时，查询结束时间需晚于查询开始时间，且查询开始时间和查询结束时间的间隔不能超过7天。在异常事件页签，查看异常事件的统计...

通过SQL加工创建离线数据集

Dataphin标签基于离线计算引擎，支持通过SQL加工方式开发数据集指标，对来源物理表字段进行预加工后供离线标签使用。本文将指导您如何通过SQL加工创建离线数据集。前提条件创建离线数据集前需先创建数据集所归属的标签项目。更多信息，请...

通过SQL加工创建离线数据集

Dataphin标签基于离线计算引擎，支持通过SQL加工方式开发数据集指标，对来源物理表字段进行预加工后供离线标签使用。本文将指导您如何通过SQL加工创建离线数据集。前提条件创建离线数据集前需先创建数据集所归属的标签项目。更多信息，请...

Append Delta Table数据组织优化

Append Delta Table在复杂业务场景上表现优秀，显著的效能提升也反映出数据存储格式的技术优化在大数据分析场景下的核心价值。其技术价值及性能优化总结如下：数据自治：通过Merge、Compaction、Reclustering等后台任务，实现存储效率与...

热力线层

图表样式热力线层是3D地球的子组件，支持独立的样式和数据配置，包括线的长宽、渐变速度和颜色以及经纬度等，适用于绘制地理位置上的线条元素。样式面板搜索配置：单击样式面板右上角的搜索配置项图标，可在搜索配置面板中输入您需要...

技术架构选型

在数据模型设计之前，您需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。

批量新增离线数据同步任务

数据同步支持离线同步任务的批量创建，并支持一键启动多个上云任务，实现全量任务自动建表。本文以同步MySQL数据源到MaxCompute目标端为例，介绍如何批量新增离线数据同步任务。前提条件已存在对应数据源，具体操作，请参见新建数据源。...

通过表映射创建离线数据集

Dataphin标签基于离线计算引擎，支持通过表映射方式将物理表字段直接定义成为数据集指标。本文将指导您如何通过表映射创建离线数据集。前提条件创建离线数据集前需先创建数据集所归属的标签项目。更多信息，请参见创建标签项目。操作步骤...

通过表映射创建离线数据集

Dataphin标签基于离线计算引擎，支持通过表映射方式将物理表字段直接定义成为数据集指标。本文将指导您如何通过表映射创建离线数据集。前提条件创建离线数据集前需先创建数据集所归属的标签项目。更多信息，请参见创建标签项目。操作步骤...

同步数据至OSS/OSS-HDFS

支持的同步类型单表离线数据去向为OSS或OSS-HDFS时，支持的数据来源：数据集成模块数据来源支持的所有数据源类型配置指导：数据集成侧同步任务配置单表实时数据去向为OSS或OSS-HDFS时，支持的数据来源：Kafka、LogHub 配置指导：数据...

离线数据处理

想用AnalyticDB进行离线数据处理？本篇实践教程通过详细的分步指南与代码示例，清晰讲解核心操作流程，助您快速构建并优化数据处理任务。

飞线层

图表样式飞线层是3D球形地图的子组件，支持独立的样式和数据配置，包括飞线的速度、高度、色调以及起始点经纬度等，适用于OD数据的线型表达，通常表示两地之间的关联，如物流、交易等。配置面板搜索配置：单击配置面板右上角的搜索...

迁移Hive数据

导入Hive源数据增量数据迁移说明实际生产环境中，Hive数据主要分为离线数据和增量数据，由于Hive数据迁移到 SelectDB，通常的使用场景是拷贝一份数据到数据仓库进行查询加速，因此对于增量数据的迁移，可以考虑以下方式：在生产Hive数据...

新增离线数据同步任务

数据同步支持离线数据同步任务的新建。离线数据同步任务支持的云计算资源类型为MySQL、Oracle、SQL Server、Hdfs、ftp、PostgreSQL、Hive、MaxCompute、AnalyticDB PostgreSQL、OSS。本文以同步MySQL数据源到MaxCompute目标端为例，介绍...

离线同步写入MongoDB数据

DataWorks的数据集成为您提供MongoDB Writer插件，可从其他数据源中读取数据，并将数据同步至MongoDB。本文以一个具体的示例，为您演示如何通过数据集成将MaxCompute的数据离线同步至MongoDB。前提条件本实践进行操作时，需满足以下条件。...

统计信息

手动收集统计信息收集全表统计信息 ANALYZE TABLE 命令会扫描全表来收集统计信息，对于数据量大的表，全表收集统计信息需消耗更多的时间，建议在业务低峰期执行或采样收集统计信息。语法 ANALYZE TABLE[schema_name.]table_name[UPDATE...

增量数据同步

通过选择已注册的数据源端数据和目标端，实现增量任务自动建表的方式创建离线同步周期任务，本文介绍如何创建MySQL to MaxCompute离线增量数据同步周期调度的任务。前提条件已新建工作组“信息中心（xxzx）”，具体操作，请参见新建工作...

标签工厂权限列表

Y Y N Y Y 查看实例详情&日志 Y Y N Y Y 补数据 Y Y N Y Y 回滚到该版本 Y Y N Y Y 删除版本 Y N N N Y 重跑实例 Y Y N Y Y 移除已申请离线标签 Y N N N-离线数据集新建（保存并发布）&复制离线数据集 Y Y N N-编辑（保存&发布）离线数据...

解读实例诊断报告

离线全量Key分析实时Top Key统计 TOP 10 节点慢请求展示发生慢请求次数排名前十的数据节点，并展示对应的慢请求信息，统计来源如下：系统审计日志中保存的数据节点慢日志（仅保留4天）。数据节点本身记录的慢日志（仅保存最近的1024条）...

标签工厂权限列表

Y Y N Y Y 移除已申请离线标签 Y N N N-离线数据集新建（保存并发布）&复制离线数据集 Y Y N N-编辑（保存&发布）离线数据集 Y Y N N Y 删除离线数据集 Y N N N Y 查看离线数据集详情 Y Y Y Y Y 查看实例详情&运行日志 Y Y N N Y 下线离线...

8.0.1和8.0.2版功能对比

支持支持 HTAP&复杂/分析查询列存索引面向OLAP场景大数据量复杂查询。通过列存索引，PolarDB for MySQL 版实现了一体化的实时事务处理和实时数据分析的能力，成为一站式HTAP数据库产品解决方案。通过一套数据库系统，即可满足业务的OLTP...

数据质量管理流程

数据质量的管理流程包括业务数据资产定级、加工卡点、风险点监控和及时性监控，您可以构建属于自己的...详情请参见离线数据加工卡点校验。对数据风险点进行监控，包括数据的质量风险和及时性。详情请参见：数据质量风险监控数据及时性监控

创建逻辑模型：应用表

应用表是面向具体业务场景时，用于组织相同时间周期、相同维度的多个原子指标、派生指标或统计粒度的统计数据，为后续的业务查询，OLAP分析，数据分发等提供基础。本文为您介绍如何创建应用表。功能介绍应用表是将一个数据集市或主题域中...

典型应用

用户分群统计构建用户特征大宽表，任意选择用户属性标签数据和筛选条件，进行人群特征统计分析。访客来源分析展示通过批量离线计算对用户访问日志中的用户行为进行关联，生成用户行为路径大宽表同步到ClickHouse，基于ClickHouse构建交互...

Cost-based SQL诊断引擎

在阿里巴巴集团内部，我们已经对数据库实例上全部SQL进行实时采集和存储，借助阿里巴巴这个大平台业务的丰富性和SQL场景的丰富性，以特征化形式描述为抓手对线上海量全量SQL资源分析搜寻符合指定特征的真实案例，抽取测试案例所需的信息，...

Top Key统计

大Key和热Key的统计排名机制为避免对数据库造成额外的资源占用，本功能仅会统计客户端操作（读、写）过的Key，并仅保留和展示每种Key类型的Top数量，而不会实时扫描数据库中的所有Key。同时，在实例重启后或HA切换后，原先统计的TopKey...

ClickHouse数据源

支持的版本支持的阿里云ClickHouse版本及JDBC驱动兼容关系如下：JDBC 驱动版本阿里云ClickHouse内核版本 0.2.4 20.8、21.8 0.4.0 22.8、23.8 使用限制 ClickHouse数据源仅支持离线读写能力，以下为具体内容。支持使用 Serverless资源组...

新建统计周期

统计周期即统计数据的时间范围，例如最近7天、最近30天等。本文为您介绍如何新建统计周期。前提条件需开通智能研发版或资产运营高级版功能才能使用统计周期。完成计算引擎类型设置，详情请参见计算设置。计算引擎类型设置完成后，系统...

新建统计周期

统计周期即统计数据的时间范围，例如最近7天、最近30天等。本文为您介绍如何新建统计周期。前提条件需开通智能研发版或资产运营功能才能使用统计周期。完成计算引擎类型设置，详情请参见计算设置。计算引擎类型设置完成后，系统会自动...

查看实例统计

运行详情支持选择按业务日期、定时运行时间、运行日期，查看统计数据。定时运行时间：任务的起调时间。您可选择日期范围，默认为当天。运行日期：任务的开始运行时间。您可选择业务日期范围，默认为当天。未运行和等待中的实例将不统计...

查看实例统计

运行详情支持选择按业务日期、定时运行时间、运行日期，查看统计数据。定时运行时间：任务的起调时间。您可选择日期范围，默认为当天。运行日期：任务的开始运行时间。您可选择业务日期范围，默认为当天。未运行和等待中的实例将不统计...

离线同步读取MongoDB数据

DataWorks的数据集成为您提供MongoDB Reader插件，可从MongoDB中读取数据，并将数据同步至其他数据源。本文以一个具体的示例，为您演示如何通过数据集成将MongoDB的数据离线同步至MaxCompute。背景信息本实践的来源数据源为MongoDB，去向...

应用场景

互联网类应用 Cassandra能够支持大并发低延时的访问需求，具备高可用和弹性扩容能力，适合日志、消息、feed流、订单、账单、网站等各种大数据量的互联网在线应用场景。多活 Cassandra原生支持多DC部署方式，实现更好的可用性和容灾能力。云...

数据库属性管理

使用场景当数据库进行大版本升级时，新版本可能会引入新的数据类型、存储引擎或查询优化器等，这可能会导致旧的统计信息不再准确或不再适用。此时，您可以通过该功能来更新数据分布信息，以适应新版本引擎。当将数据库从线下转移到云端时...

公共数据集数据源

DataWorks 内置了开箱即用的公共数据集数据源，帮助您零配置快速体验单表离线数据同步。本文为您介绍DataWorks的公共数据集数据同步能力支持情况。支持的数据集详情及地域支持的公共数据集列表以及数据集的详情参见 DataWorks Gallery 云...