大数据在线统计-大数据在线统计文档介绍内容-移动阿里云

互联网、电商行业离线大数据分析

方案介绍实现互联网、电商行业离线大数据分析的流程如下：同步用户订单等数据至MaxCompute。通过DataWorks对原始数据进行处理，并形成开放API。以API的形式通过DataV在大屏上展示结果数据。方案优势大规模存储：超大规模存储且自动扩容，...

计算设置

使用StarRocks作为元仓计算引擎进行元仓初始化 Lindorm（计算引擎）Lindorm是阿里云的一个云原生多模数据库产品，其计算引擎模式可以支持离线大数据应用。设置Dataphin的计算引擎为Lindorm（计算引擎）GaussDB（DWS）GaussDB（DWS）是华为...

计算设置概述

使用StarRocks作为元仓计算引擎进行元仓初始化 Lindorm（计算引擎）Lindorm是阿里云的一个云原生多模数据库产品，其计算引擎模式可以支持离线大数据应用。设置Dataphin的计算引擎为Lindorm（计算引擎）实时计算引擎阿里云实时计算Flink ...

MaxCompute表数据

说明字段热度：统计数据为前一天该字段在SQL中参与join的次数，次数按比例转换为星级，热度最高为5星，最小为0星。关联指标：展示字段关联的模型指标。如需新建或更新关联关系，请进入维度建模，在目标表的编辑页面中，通过字段管理来维护...

元数据检索

此数据为离线统计，有 T+1延迟。存储量当前地域下，所有表的逻辑存储大小总和，包含调度任务的临时文件、删除表后尚未释放的存储空间。此数据为离线统计，有 T+1延迟。总API数当前地域下，已发布至API网关的MaxCompute类型的API总数。...

Ganos全空间数据多态（冷热）分层存储能力解析与最佳...

此时，往往需要在成本与效率方面做出取舍，部分业务不得不重新迁回线下或者用离线任务的方式完成，业务开发不得不在多种存储介质中来回切换，运维与研发成本大幅度上升。因此，寻找一种兼顾效率、成本与易用性的全空间数据管理方案成为 ...

Ganos全空间数据多态（冷热）分层存储能力解析与最佳...

此时，往往需要在成本与效率方面做出取舍，部分业务不得不重新迁回线下或者用离线任务的方式完成，业务开发不得不在多种存储介质中来回切换，运维与研发成本大幅度上升。因此，寻找一种兼顾效率、成本与易用性的全空间数据管理方案成为 ...

查看运维大屏

数据集成任务：仅统计数据集成离线同步和实时同步任务的相关运维情况。进入运维大屏登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据开发与运维运维中心，在下拉框中选择对应工作空间后单击进入运维中心。查看周期任务运...

进入数据质量大盘

数据质量重点关注您可在该区域右侧选择查看规则和表粒度统计需要重点关注的数据质量概况。类别指标描述表已配置规则表数当前工作空间下，截止到您在概览页面右上角指定的日期，已配置质量校验规则的表数量。质量问题表数当日...

质量规则模板类型

如果差异较大，可能存在较大数据质量的问题需要进行确认和修复。实时多链路对比高可用场景下，需要构建多条链路，以便数据出现异常时，能够及时切换。对于多链路之间的数据计算进度监控则可以发现一些数据滞留、统计偏差问题，提升实时...

质量规则模板类型

如果差异较大，可能存在较大数据质量的问题需要进行确认和修复。实时多链路对比高可用场景下，需要构建多条链路，以便数据出现异常时，能够及时切换。对于多链路之间的数据计算进度监控则可以发现一些数据滞留、统计偏差问题，提升实时...

产品简介

实时物化视图差异数据湖 Spark离线处理查询性能的智能诊断与调优 RAG应用时空分析应用场景共同点实时数仓实时日志分析商业智能报表差异精准营销多源联合分析 大数据存储分析离线数据加速其它数据湖或数据仓库业务迁移...

数据开发概述

通过个人开发环境实例支持Python开发、Notebook分析与Git集成，Data Studio还支持丰富多样的插件生态，实现实时离线一体化、湖仓一体化、大数据AI一体化，助力“Data+AI”全生命周期的数据管理。Data Studio介绍 Data Studio是智能湖仓一体...

数据开发（Data Studio）（新版）

通过个人开发环境实例支持Python开发、Notebook分析与Git集成，Data Studio还支持丰富多样的插件生态，实现实时离线一体化、湖仓一体化、大数据AI一体化，助力“Data+AI”全生命周期的数据管理。Data Studio介绍 Data Studio是智能湖仓一体...

离线同步任务运维

查看离线数据大屏您还可以在运维大屏离线同步页面查看离线同步任务的运行状态分布、数据同步进度、同步数据量统计、同步任务执行详情（可基于来源端与目标端数据源，以及任务是否产生公网等条件过滤目标任务）等运行指标信息。...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

质量规则参数配置

异常数据SQL：填写异常数据的统计SQL。例如：select${t1.c1} as dataphin_quality_error_data from${t1} where ds=${bizdate} and${t1.c1} 0;数据表校验配置说明模板类型配置项描述完整性异常行数/正常行数/异常率/正常率正常行数：...

质量规则参数配置

异常数据SQL：填写异常数据的统计SQL。例如：select${t1.c1} as dataphin_quality_error_data from${t1} where ds=${bizdate} and${t1.c1} 0;说明当规则模板选择自定义SQL的自定义规则模板时，规则配置区域将自动解析该规则模板的变量字段...

数据概览

数据统计图 数据统计图包括：大模型调用量、文本质检字符数（包括实文本质检以及语音质检）、语音质检时长（包括实时语音质检和离线语音质检）。同时支持7/15/30天内时间维度筛选。计费统计计费统计显示近7天的大模型调用总量、实时文本...

组件操作

您可以根据产品架构图查看EMR提供的大数据组件及使用场景。数据开发数据开发层提供可视化工具和代码管理，涵盖数据的采集、清洗、建模、分析以及任务调度等一系列开发过程，旨在支持企业对数据资产的高效管理与利用。在EMR中数据开发的...

Echarts K线图

本文介绍Echarts K线图的图表样式和配置面板的功能。图表样式配置面板搜索配置：单击配置面板右上角的搜索配置，可在搜索配置面板中输入您需要搜索的配置项名称，快速定位到该配置项，系统支持模糊匹配。详情请参见搜索资产配置。...

Echarts K线图

本文介绍Echarts K线图的图表样式和配置面板的功能。图表样式样式面板搜索配置：单击样式面板右上角的搜索配置项图标，可在搜索配置面板中输入您需要搜索的配置项名称，快速定位到该配置项，系统支持模糊匹配。详情请参见搜索配置项。...

综合：网站用户画像分析

计算引擎云原生大数据计算服务MaxCompute 本案例中，基于DataWorks使用云原生大数据计算服务MaxCompute、开源全托管服务EMR Serverless StarRocks、开源大数据平台 E-MapReduce 或开源全托管服务EMR Serverless Spark 中的任意一种作为 ...

删除数据

请求：POST/api/delete_data 请求体：{"metric":"cpu","start":1499308591,"end":1499508591 } 任务：清除从 1499308591 到 1499508591 指标为“cpu”,tag 为“host:192.168.0.2”，”appName:hitsdb”的所有数据线的数据。请求：POST/api/...

离线数据集

离线数据集是通过指标映射创建离线标签的前提条件。可以选择表映射、SQL加工以及表单加工的方式对离线数据集进行定义。并通过预定义加工的方式，以便后续的离线标签创建。功能概述您可根据业务需求创建所需的离线数据集。离线数据集的加工...

离线数据集概述

离线数据集是通过指标映射创建离线标签的前提条件。可以选择表映射、SQL加工以及表单加工的方式对离线数据集进行定义。并通过预定义加工的方式，以便后续的离线标签创建。功能概述您可根据业务需求创建所需的离线数据集。离线数据集的加工...

数据库节点

SelectDB SelectDB是基于Apache Doris打造的新一代多云原生实时数据仓库，聚焦于满足企业级大数据实时分析需求，为您提供极致性价比、简单易用的数据分析服务。更多介绍，请参见 SelectDB。Redshift Amazon Redshift是云平台的一种完全托管...

技术架构选型

其中，MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks的数据集成负责完成数据的采集和基本的ETL，并执行包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。整体选型说明架构概述本架构围绕“数据采集—数据...

日志报表

1小时（相对）大批量修改SQL的列表，包括：最早执行时间最近执行时间 PolarDB-X 实例ID 数据库表格执行次数平均更新行数平均时长（秒）SQL 修改数据统计时间日志报表页面的所有图表都是基于不同时间段（默认为过去1小时内的）的数据...

核心能力

一站式大数据开发平台，提供一致性开发体验一站式数据同步支持离线/实时数据传输。周期同步任务调度统一管理。主流空间数据库全面支持同步汇聚（超图SDX+，ArcGIS SDE，PostGIS，Ganos）。自动灵活的数据探查物理表预览和表数据自动探查...

上线离线数据同步任务

新增离线数据同步任务后，需对任务进行上线操作，同步任务上线后会按照创建同步任务中设置的调度周期执行。本文介绍如何上线离线数据同步任务。前提条件已新增离线数据同步任务，具体操作，请参见新增离线数据同步任务、批量新增离线数据...

可观测性能力介绍

时延洞察（Latency metric）时延洞察是云数据库 Tair（兼容 Redis）提供的升级版时延统计功能，支持记录多达27个事件及所有Redis命令的执行耗时，并支持保存最近3天内所有的时延统计数据。在控制台目标实例详情页的 CloudDBA 时延洞察页...

报表中心

专项报表：提供风险综合分析报告、风险分布统计报告、数据库概要分析报告等多个专项报表，满足您多种数据报表需求。查看报表登录数据库审计系统。具体操作，请参见登录数据库审计系统。在左侧导航栏，选择报表中心目录下您需要查看的...

离线集成

解决企业复杂大数据批处理难题，支持企业精细化运营、数据营销、智能推荐等大数据业务场景。离线集成功能底层基于Spark开发，支持提升Hadoop平台运行速度的应用场景。说明如果您在使用该功能的过程中有任何疑问或问题，请使用钉钉搜索钉钉...

DeltaLake

背景信息通常的数据湖方案是选取大数据存储引擎构建数据湖（例如，阿里云对象存储OSS产品或云下HDFS），然后将产生的各种类型数据存储在该存储引擎中。在使用数据时，通过Spark或Presto对接数据分析引擎并进行数据解析。但该套方案存在...

查看离线数据同步任务监控

前提条件已上线离线数据同步任务，具体操作，请参见上线离线数据同步任务。操作步骤登录数据资源平台控制台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择目标工作组，单击资产加工。在左侧导航栏，单击图标...

路网轨迹层

透明度系数：轨迹线上点的颜色透明度值，取值范围0.01~1，数值越大，透明度越大。数据面板该组件数据为GeoJson格式，关于数据格式以及数据获取方法，请参见地图数据格式和基础平面地图的地理边界geojson数据接口。配置字段说明字段 ...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

近实时数仓

大数据平台普遍采用离线、实时、流三种引擎组合的方式以满足用户实时性和高性价比的需求。但是很多业务场景并不要求延时秒级更新可见或者行级更新，更多的需求是分钟级或者小时级的近实时数据处理叠加海量数据批处理场景，MaxCompute在原有...