大数据线上拓客-大数据线上拓客文档介绍内容-移动阿里云

产品简介

实时物化视图差异数据湖 Spark离线处理查询性能的智能诊断与调优 RAG应用时空分析应用场景共同点实时数仓实时日志分析商业智能报表差异精准营销多源联合分析 大数据存储分析离线数据加速其它数据湖或数据仓库业务迁移...

斑马柱图（v3.0以下版本）

能够更加智能美观地展示多维的数据差异，但在可视化应用中占的空间较大。本文介绍斑马柱图各配置项的含义。配置重要本文介绍v3.0以下版本的斑马柱图的配置项，如需查看v3.0及以上版本，请参见斑马柱状图（v3.0及以上版本）。搜索配置：...

原理剖析

因为目标是面向大规模的海量数据存储，提供高并发事务处理能力和降低存储成本，在大部分大数据量场景下，数据被访问的机会是不均等的，访问频繁的热数据实际上占比很少，X-Engine根据数据访问频度的不同将数据划分为多个层次，针对每个层次...

冷热分离

背景信息在海量大数据场景下，一张表中的部分业务数据随着时间的推移仅作为归档数据或者访问频率很低，同时这部分历史数据体量非常大，比如订单数据或者监控数据，降低这部分数据的存储成本将会极大的节省企业的成本。因此，如何以极简的...

DataWorks产品安全能力介绍

MaxCompute Information Schema：大数据计算服务内的所有操作会被记录至离线元数据仓库Information Schema，您可随时调用。实时操作日志支持使用OpenEvent将DataWorks关键操作变更情况以消息的方式发送至用户，便于用户订阅消息并做出个性...

近实时数仓

大数据平台普遍采用离线、实时、流三种引擎组合的方式以满足用户实时性和高性价比的需求。但是很多业务场景并不要求延时秒级更新可见或者行级更新，更多的需求是分钟级或者小时级的近实时数据处理叠加海量数据批处理场景，MaxCompute在原有...

X-Engine引擎

因为目标是面向大规模的海量数据存储，提供高并发事务处理能力和降低存储成本，在大部分大数据量场景下，数据被访问的机会是不均等的，访问频繁的热数据实际上占比很少，X-Engine根据数据访问频度的不同将数据划分为多个层次，针对每个层次...

东软案例

业务要求与挑战线上互联网化的信息服务繁荣发展为政府、企业数字系统运维应用稳定和客户数字体验保障提出了更高要求。在互联网服务场景下，运维监控数据量激增，采集监控的数据类型更加多样（时序指标、日志、代码链路等），现有运维系统...

功能特性

支持用户通过SQL、PyODPS、Python等进行数据分析、探索，挖掘数据的价值，完成大数据与AI的融合应用开发。Notebook 近实时数仓 DeltaTable增量表格式 Delta Table 存储表是MaxCompute的数据存储单元，MaxCompute中不同类型作业的操作对象...

热力线层

图表样式热力线层是3D地球的子组件，支持独立的样式和数据配置，包括线的长宽、渐变速度和颜色以及经纬度等，适用于绘制地理位置上的线条元素。配置面板搜索配置：单击配置面板右上角的搜索配置，可在搜索配置面板中输入您需要搜索...

我是普通用户

SQLConsole SQL窗口在单库查询中可以手动写SQL进行单库查询，适用于业务代码上线数据验证、产品效果数据分析、线上问题排查定位等场景。跨库查询跨数据库查询为不同环境下的在线异构数据源，提供及时的关联查询服务。库表结构结构设计 ...

导入MongoDB数据

DataWorks（大数据开发治理平台）是阿里云重要的PaaS（Platform-as-a-Service）平台产品，支持多种计算和存储引擎服务。本文介绍通过DataWorks将MongoDB的离线数据迁移至Lindorm宽表。背景信息有关大数据开发治理平台DataWorks，具体请...

单表离线同步任务

核心能力离线同步支持的能力如下图所示：能力描述异构数据源间的数据同步数据集成目前支持50+数据源类型，包括关系型数据库、非结构化存储、大数据存储、消息队列间的数据同步。您可以通过定义来源与去向数据源，并通过数据集成提供的...

支持的数据源及同步方案

读/写-TSDB数据源写-Vertica数据源读/写-TOS数据源读-常见业务场景 MySQL整库实时同步至AnalyticDB for MySQL 3.0 Kafka单表实时同步至ApsaraDB for OceanBase MySQL整库实时同步至ApsaraDB for OceanBase MaxCompute单表离线同步至...

热力线层

图表样式热力线层是3D地球的子组件，支持独立的样式和数据配置，包括线的长宽、渐变速度和颜色以及经纬度等，适用于绘制地理位置上的线条元素。样式面板搜索配置：单击样式面板右上角的搜索配置项图标，可在搜索配置面板中输入您需要...

产品系列

近年来，针对半结构化和非结构化数据分析（例如日志数据）的业务诉求越来越多，因此，AnalyticDB for MySQL 推出了基于弹性模式的湖仓版，提供Spark计算引擎满足大数据离线处理需求。新推出的企业版和基础版，融合了数仓版预留模式、...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

某网约车公司车辆轨迹数据

解决方案在原有的架构上引入了阿里云数据库，并将全量数据写到云原生多模数据库 Lindorm 中，同时增量数据通过Kafka、Spark等实时同步到云原生多模数据库 Lindorm，这样解决了客户线下数据库数据过大的问题。客户需要存储最近3年的数据...

数据传输与迁移概述

MaxCompute提供多种渠道，以便您从业务系统或外部数据源写入数据到MaxCompute，或者从MaxCompute写出数据到外部系统或外部数据源。数据传输渠道 SDK-Tunnel渠道外表（湖仓一体）JDBC渠道场景数据写入MaxCompute 离线数据批量写入（数据...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

斑马柱状图

图表样式斑马柱状图是柱状图的一种，与基本柱图相比，斑马柱状图中的柱子是由不连续的可配置的线条组成，能够更加智能美观地展示多维的数据差异，但在可视化应用中占的空间较大。样式面板搜索配置：单击样式面板右上角的搜索配置项图标...

斑马柱状图（v3.0及以上版本）

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

配置离线数据集成节点

离线数据集成节点赋予任务流进行数据传输的能力，帮助您实现数据源之间的数据同步。本文介绍配置离线数据集成节点的方法。应用场景离线集成节点主要用于数据迁移、数据传输等场景。功能特性不限制来源表和目标表数据库类型。支持字段映射...

我是安全管理员

支持安全管理员用户的功能总览类目功能说明 SQL窗口单库查询在单库查询中可以手动写SQL进行单库查询，适用于业务代码上线数据验证、产品效果数据分析、线上问题排查定位等场景。逻辑数仓逻辑数仓提供快速进行数据分析、访问服务和跨...

开通Dataphin

在阿里云官网，鼠标悬停至产品后，再将鼠标悬停至左侧导航栏的 大数据计算上，单击数据开发与服务列下的智能数据建设与治理Dataphin。在Dataphin产品详情页的产品版本与功能特性，单击去购买，进入Dataphin购买页面。在购买页面，...

支持的云服务

AnalyticDB for MySQL 云原生数据仓库 AnalyticDB MySQL 版（AnalyticDB for MySQL）是海量数据实时高并发在线分析（Realtime OLAP）云计算服务，与MaxCompute结合应用于大数据驱动业务系统的场景。通过MaxCompute离线计算挖掘，产出高质量...

配置ArgoDB输出组件

配置ArgoDB输出组件，可以将外部数据库中读取的数据写入到ArgoDB，或从大数据平台对接的存储系统中将数据复制推送至ArgoDB，进行数据整合和再加工。本文为您介绍如何配置ArgoDB输出组件。使用限制 ArgoDB输出组件支持写入文件格式为orc、...

同步数据至OSS/OSS-HDFS

支持的同步类型单表离线数据去向为OSS或OSS-HDFS时，支持的数据来源：数据集成模块数据来源支持的所有数据源类型配置指导：数据集成侧同步任务配置单表实时数据去向为OSS或OSS-HDFS时，支持的数据来源：Kafka、LogHub 配置指导：数据...

离线数据处理

想用AnalyticDB进行离线数据处理？本篇实践教程通过详细的分步指南与代码示例，清晰讲解核心操作流程，助您快速构建并优化数据处理任务。

我是DBA

SQL窗口单库查询在单库查询中可以手动写SQL进行单库查询，适用于业务代码上线数据验证、产品效果数据分析、线上问题排查定位等场景。跨库查询跨数据库查询为不同环境下的在线异构数据源，提供及时的关联查询服务。逻辑数仓逻辑数仓提供...

配置ElasticSearch输出组件

本文为您介绍如何配置ElasticSearch...复用线上：每次重建索引时复用ElasticSearch已有索引结构。系统默认：每次重建索引时根据ElasticSearch输出组件配置的输出字段自动生成索引结构。单击确认，完成 ElasticSearch 输出组件的属性配置。

配置ElasticSearch输出组件

本文为您介绍如何配置ElasticSearch...复用线上：每次重建索引时复用ElasticSearch已有索引结构。系统默认：每次重建索引时根据ElasticSearch输出组件配置的输出字段自动生成索引结构。单击确认，完成 ElasticSearch 输出组件的属性配置。

应用场景

使用StarRocks统一管理数据湖和数据仓库，将高并发和实时性要求很高的业务放在StarRocks中进行分析，也可以使用External Catalog和外部表进行数据湖上的分析。典型场景的解决方案 OLAP通用场景解决方案业务背景：该方案适用于多种业务场景...

功能更新动态（2024年）

治理分析治理项管理元数据中心新增大数据存储采集源，包括Starrocks、Hive（MySQL元数据库）、Hologres，可采集表、字段、分区信息，支持在资产清单、元数据中心查询到该表，可上架到资产目录。元数据采集概览创建及管理元数据采集任务...

从Oracle迁移应用至阿里云PolarDB全流程指南

数据传输DTS：数据传输服务（Data Transmission Service）DTS支持关系型数据库、NoSQL、大数据（OLAP）等数据源间的数据传输。它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。数据传输致力于在公共云、混合云场景下，...

离线同步提速或限速

离线同步任务使用的调度资源组离线同步任务将有调度资源下发至数据集成任务执行资源上执行，调度资源使用情况同样会影响整体数据集成同步效率。离线同步任务配置传输速度：是否设置任务同步速度上限值。并发：从源并行读取或并行写入数据...

迁移Hive数据

导入Hive源数据增量数据迁移说明实际生产环境中，Hive数据主要分为离线数据和增量数据，由于Hive数据迁移到 SelectDB，通常的使用场景是拷贝一份数据到数据仓库进行查询加速，因此对于增量数据的迁移，可以考虑以下方式：在生产Hive数据...

数据导入方式介绍

离线数仓加速离线数据运行在 MaxCompute 等离线数仓上，单天数据增量达到几十GB甚至TB级，需要每天导入数据到 AnalyticDB for MySQL 进行数据加速分析。使用方法数据导入方式分为常规导入（默认）和弹性导入。常规导入在计算节点中读取源...

DataWorks模块使用指引

DataWorks 是阿里云提供的一站式大数据开发与治理平台，旨在帮助用户解决从数据接入、处理、治理到服务化的全链路数据问题。它通过一系列高度协同的功能模块，将复杂的数据工程流程化、可视化，显著降低了大数据开发的门槛。本文将为您逐一...

什么是数据资源平台

基于标签数据的群体分析、专家业务模型构建、全流程任务监控告警、数据服务化、数据资产管理等核心能力，提供标准化程度高、易用性强的一站式大数据管理平台。依托数据资源平台，可设计高质量的标准化数据模型，减少重复开发工作，用户可...