为什么要进行大数据-为什么要进行大数据文档介绍内容-移动阿里云

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

客户案例

千寻位置基于卫星系统（兼容GPS、GLONASS、Galileo）定位数据，利用遍及全国的超过2400个地基增强站及自主研发的定位算法，通过互联网技术进行大数据运算，为遍布全国的用户提供精准定位及延展服务。客户诉求提升计算精准度及速度，满足...

ActionTrail日志清洗

以操作DLA的账号为例，该账号下每天会产生几千个数据文件，一个月的文件数将达到几十万个，大量的数据文件对大数据分析非常不便，分析数据耗时，且需要足够大的集群资源才能进行大数据分析。前提条件使用ActionTrail日志清洗之前，您需要...

数据导入方式介绍

为满足多样化的数据导入需求，云原生数据仓库AnalyticDB MySQL版提供了多种数据导入方式，包括：通过外表导入数据、使用DataWorks导入数据和利用JDBC通过程序导入数据等。本文介绍各导入方式的特性及适用场景，帮助您选择正确的数据导入...

Kafka实时ETL同步至Hologres

找到您要进行数据同步的Hologres数据源，在实例详情界面获取到Hologres的实例ID、地域信息、数据源地址。如果Hologres开通了指定VPC的网络链接，则可以获取到VPC ID、Vswitch ID。手动添加Hologres数据源可通过绑定Hologres计算引擎 ...

LogHub（SLS）实时ETL同步至Hologres

找到您要进行数据同步的Hologres数据源，在实例详情界面获取到Hologres的实例ID，地域信息，数据源地址。如果Hologres开通了指定VPC的网络链接，则可以获取到VPC ID、Vswitch ID。手动添加Hologres数据源可通过绑定Hologres计算引擎 ...

基于MaxCompute进行大数据BI分析

方案介绍基于MaxCompute进行大数据BI分析的流程如下：通过数据集成同步业务数据和日志数据至MaxCompute。通过MaxCompute、DataWorks对数据进行ETL处理。同步处理后的结果数据至AnalyticDB MySQL。通过Quick BI可视化建立用户画像。方案...

我是普通用户

数据方案数据变更对数据进行变更，以满足上线数据初始化、历史数据清理、问题修复、测试等诉求。数据导入通过数据导入功能可以批量将数据导入至数据库。数据导出进行大量数据分析或提取相关数据时可以使用数据导出功能。数据追踪由于...

补数据

选择并行，您可以设置同时使用2组、3组、4组或5组等多个补数据实例进行补数据，即多个补数据实例下有多个业务日期并行执行。实时场景：假设小时、分钟节点选择补一个星期数据。如果小时、分钟节点设置了自依赖，那么小时、分钟节点每天的...

执行补数据并查看补数据实例（旧版）

补数据可通过补历史或未来一段时间的数据，将写入数据至对应时间分区。代码中的调度参数，将根据补数据选择的业务时间自动替换为具体值，并结合业务代码将对应时间数据写入指定分区。具体写入的分区与执行的代码逻辑，与任务定义的代码...

我是安全管理员

解决方案数据归档概述数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建...

数据分析：即时快速分析

功能概述数据分析支持基于个人视角的数据上传、公共数据集、表搜索与收藏、在线SQL取数、SQL文件共享、SQL查询结果下载及用电子表格进行大屏幕数据查看等产品功能。适用场景适合更多非专业数据开发人员，如数据分析、产品、运营等工作...

我是DBA

解决方案数据归档数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建工单...

我是管理员

数据归档数据归档功能定时将大表的数据归档至其他数据库，支持源表数据删除、表空间整理回收等功能。数据库迁移通过创建工单实现数据库迁移、校验和清理的闭环操作。运维管理通知管理可根据您的业务需求，订阅不同功能模块的消息事件，...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

LTS（原BDS）服务介绍

在线离线业务分离通过LTS，将在线业务数据实时同步到HDFS或者OSS等存储，结合Spark、MR等大数据组件进行数据分析，从而不影响在线业务的查询。主备容灾通过LTS在主备集群之间实现实时数据的双向同步，当主集群出现问题，可以切换到备集群...

LTS（原BDS）服务介绍

在线离线业务分离通过LTS，将在线业务数据实时同步到HDFS或者OSS等存储，结合Spark、MR等大数据组件进行数据分析，从而不影响在线业务的查询。主备容灾通过LTS在主备集群之间实现实时数据的双向同步，当主集群出现问题，可以切换到备集群...

添加数据源概述

本文档为您介绍DataV支持的所有数据源，帮助您选择合适的数据源进行大屏项目的开发。进入 DataV控制台，单击我的数据，可以对接入的数据源进行统一管理。DataV支持以下数据源的接入。数据源类型数据源说明数据库类说明如果您在其它...

产品概述

阿里云流数据处理平台数据总线DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布(Publish)，订阅（Subscribe）和分发功能，让您可以轻松构建基于流式数据的分析和应用。数据总线 DataHub服务可以对各种移动设备，应用...

数据科学计算概述

为满足用户基于MaxCompute进行大规模数据处理、分析、挖掘及模型训练的需求，MaxCompute提供了一套Python开发生态，让用户通过统一的Python编程接口一站式、高效地完成数据处理、加工及挖掘工作。发展路径 MaxCompute提供的Python开发生态...

功能简介

洞察是一款自助式数据挖掘分析型，面向业务管理者、运营、业务分析师等人员提供低使用门槛的智能、自动化、全面、精准的数据诊断和分析能力，智能发现数据规律或异常，实现从数据到知识的提取，辅助业务决策。几乎每个业务每天都存在业务...

整库离线同步至Elasticsearch

您可以根据实际网络情况及数据量大小进行合理配置，减少不必要的网络开销。增量同步仅当方案选择配置为只增量一次性同步、周期性增量同步或全量一次性同步后周期增量时，需要配置该参数。说明您可以使用调度参数来指定同步源表及...

数据库高级特性管理

使用场景当数据库进行大版本升级时，新版本可能会引入新的数据类型、存储引擎或查询优化器等，这可能会导致旧的统计信息不再准确或不再适用。此时，您可以通过该功能来更新数据分布信息，以适应新版本引擎。当将数据库从线下转移到云端时...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

数据组织优化

Compaction服务通过消除记录中间历史状态，可节省计算和存储成本，极大加速全量快照查询场景的效率，但也不是频率越高越好，首先执行一次也要读取一遍全量数据进行Merge，极大消耗计算和IO资源，并且生成的新BaseFile也会占据额外的存储...

2021年

03-16 全部地域更新或删除数据（UPDATE|DELETE）MERGE INTO 表操作 ACID语义 MaxCompute管家作业诊断功能发布 MaxCompute管家发布的慢作业、错作业诊断功能，可以帮助大数据开发者和分析师在日常作业运维中，对慢作业和错作业进行自助诊断...

聚合支付方案

阿里云从业务扩展性、数据流动性、服务高可用三方面入手，通过多款云数据库产品为利楚扫呗制定聚合支付方案，解决利楚扫呗在业务扩展期遇到的数据存储空间不足、读写性能下降以及大数据分析空缺等问题。业务痛点武汉利楚商务服务有限公司...

EMR+DLF数据湖解决方案

步骤三：初始化数据初始化数据一般常见的几种情况如下：已有大数据集群，需要进行数据迁移，此时可以考虑通过 Jindo DistCp 工具将老集群的数据迁移到OSS中。从RDS/MySQL/Kafka 等业务系统接入数据，此时可以考虑通过实时计算Flink实现...

生成测试数据

背景信息 OceanBase 开发者中心（OceanBase Developer Center，ODC）提供模拟数据功能供用户在测试数据库性能或者验证功能等需要大量模拟数据的场景下，能够快速根据表中的字段类型生成数据。注意事项单次模拟数据上限为 1 亿行。拥有检查...

数据可视化展现

您可以联系管理在安全中心对要查询的数据源进行授权。在安全中心>安全策略>可查询数据源界面，找到 odps_first 数据源，为您操作账号授权。回到SQL查询临时文件编辑页面，在数据源选项中选择刚授权的数据源 odps_first。编写SQL命令在...

查询概述

通过支持数据导入集成，SelectDB可从多种数据源（阿里云数据源、自建数据源）进行数据导入，SelectDB提供稳定、高效、简单易用的数据集成方案。通过支持数据可视化集成，SelectDB可与MySQL生态兼容的可视化工具进行无缝对接，大幅提升数据...

开发前准备：绑定数据源或集群

若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务，需先将已创建的数据源或集群绑定至数据开发（DataStudio）模块。绑定后，才可读取数据源或集群中的数据，并进行相关开发操作。前提条件您需根据后续要开发和调度...

CDH Hive数据抽样采集器

如果您在数据保护伞中配置了脱敏规则，那么在数据地图表详情页面进行数据预览时，命中的敏感字段将会被脱敏。本文为您介绍如何新建CDH Hive数据抽样采集器。前提条件已购买并创建DataWorks的独享调度资源组。详情请参见：新增和使用独享...

周期任务补数据

周期任务补数据功能用于对周期任务在指定的历史业务日期内进行数据回刷。周期任务开发完成并提交发布后，任务会按照调度配置定时运行，如果您希望在指定时间段运行周期任务或回刷历史一段时间区间的数据，可以使用补数据功能。节点使用的...

周期任务补数据

周期任务补数据功能用于对周期任务在指定的历史业务日期内进行数据回刷。周期任务开发完成并提交发布后，任务会按照调度配置定时运行，如果您希望在指定时间段运行周期任务或回刷历史一段时间区间的数据，可以使用补数据功能。节点使用的...

补数据任务概述

Dataphin补数据任务可以对历史数据进行补数，将数据写入至对应时间分区。代码中若使用调度参数，则该参数将根据补数据时选择的业务日期自动替换为具体值，结合业务代码将对应时间数据写入对应分区。帮助您对数据中缺失、错误、重复或不完整...

补数据任务概述

Dataphin补数据任务可以对历史数据进行补数，将数据写入至对应时间分区。代码中若使用调度参数，则该参数将根据补数据时选择的业务日期自动替换为具体值，结合业务代码将对应时间数据写入对应分区。帮助您对数据中缺失、错误、重复或不完整...

应用场景

数据库备份DBS提供的应急恢复功能，将自动获取备份集并合成快照点，可按需在短时间内恢复出（即创建）一个新的DBS沙箱实例。您可以在DBS沙箱功能中快速恢复独立的DBS沙箱实例（即数据库实例），让您的备份数据快速可用，且在沙箱中的读写...

产品架构

此过程将持续下去，直到所有正在进行的数据变更都复制到目标数据库，并且源数据库和目标数据库完全同步。数据同步的工作原理 DTS可以在两个数据源之间同步正在进行的数据变更。数据同步通常用于OLTP到OLAP的数据传输。数据同步包括以下两个...