大数据学习的工具-大数据学习的工具文档介绍内容-移动阿里云

迁移服务（MMS）

MMS通过与MaxCompute Spark引擎集成，简化了从自建数据源到MaxCompute的大规模数据迁移过程，降低了配置复杂度和运维成本。功能概述迁移架构 MaxCompute数据迁移服务MMS支持元数据和数据迁移。元数据迁移：通过元数据API（如Hive ...

风险识别管理

规则名称规则类型规则等级规则配置非工作时间查询大数据量敏感数据数据访问风险低如下时间段查询数据量大于10,000时命中该规则。周一至周五：19:00～24:00。周六至周日：00:00～24:00。相似SQL查询数据访问风险低十分钟内查询...

管理物化视图

工具栏中提供以下功能键：操作键说明下载单击下载数据图标，下载结果集数据。回到开始跳转至第一页。上一页向上翻页。下一页向下翻页。跳至底部跳转至最后一页。展示数据量设置在页面中展示的行数。默认仅展示 1000 条。搜索通过...

升级数据库大版本

本文介绍云数据库MongoDB支持升级的数据库大版本以及如何升级数据库大版本。注意事项协议要求：升级分片集群实例的数据库大版本时，实例的协议类型需为 MongoDB协议。升级方式与影响：自动重启：升级采用轮转升级的方式进行，升级过程中会...

补数据实例运维

补数据可通过补历史或未来一段时间的数据，将写入数据至对应时间分区。代码中的调度参数，将根据补数据选择的业务时间自动替换为具体值，并结合业务代码将对应时间数据写入指定分区。具体写入的分区与执行的代码逻辑，与任务定义的代码...

快速体验

DataWorks的数据分析功能为企业提供了全面的数据分析和服务共享能力，可便捷地连接多种数据源、支持SQL查询，并提供电子表格等多样化的数据分析工具，以满足企业日常的数据提取和分析需求。本文将通过MaxCompute引擎在SQL查询中对公共数据...

冷数据归档常见问题

归档为CSV格式的数据的数据量可能会比归档为ORC格式的数据的数据量更大。为什么归档后的冷数据及文件在主账号下面的OSS上看不到？PolarDB 的冷数据存储在系统默认的OSS上，不在客户的OSS里，所以客户无法看到。目前只支持在PolarDB控制台上...

区域热力层

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

数据迁移指南

迁移流程概述迁移过程主要分为五个阶段，由 nimo-shake（数据同步，包括全量同步与增量同步）、nimo-full-check（数据校验）和 PolarDBBackSync（数据反向同步）三个核心工具协同完成。全量同步（Full Synchronization）工具：nimo-shake ...

点热力层（v3.x版本）

过滤器打开过滤器，选择已创建的数据过滤器或新建数据过滤器，并配置数据过滤器脚本，实现数据的筛选功能。详情请参见管理数据过滤器。数据响应结果实时展示了组件所使用的数据。当组件数据源发生变化时，数据响应结果会对应展示最新的...

连接全球数据库网络

以下列举了部分连接数据库集群的示例：使用DMS连接集群 DMS是阿里云提供的图形化的数据管理工具，它是一种集数据管理、结构管理、用户授权、安全审计、数据趋势、数据追踪、BI图表、性能与优化和服务器管理于一体的数据管理服务。...

连接全球数据库网络

以下列举了部分连接数据库集群的示例：使用DMS连接集群 DMS是阿里云提供的图形化的数据管理工具，它是一种集数据管理、结构管理、用户授权、安全审计、数据趋势、数据追踪、BI图表、性能与优化和服务器管理于一体的数据管理服务。...

数据迁移

背景信息 EMR Kudu支持社区1.10以及1.11版本，可以使用社区提供的Backup和Restore的工具进行数据的迁移。基本流程示意图如下所示。操作步骤执行以下命令，查看待迁移Kudu表的名称列表。Kudu table list {YourKuduMasterAddress} 说明本文...

兼容性概览

为了帮助您更清晰地使用外部工具连接访问MaxCompute，本文将为您介绍MaxCompute支持连接的数据库管理工具，以及工具与MaxCompute在数据库连通性、列举数据库、查看表等方面的兼容性。数据库管理工具与MaxCompute的兼容性如下。工具连接...

生态对接

本文为您介绍MaxCompute支持连接的商业智能BI工具、数据库管理工具及ETL工具。MaxCompute的生态架构如下图所示。商业智能（BI）工具商业智能（BI）工具支持将计算引擎得到的数据通过仪表板、图表或其他图形输出实现数据可视化，以直观的...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

用户价值

数据开发更简单：平台提供的各种工具产品能够极大的简化数据开发过程，缩短数据治理周期，降低数据治理成本。通过标准化、精细化、规格化的智能数据生产流程，完成流水线式的数据生产作业，提升数据资源生产效率、消除数据供应品质差异。...

常见问题

1.售前咨询渠道尊敬的“准”大数据专家服务用户您好：如果您准备购买阿里云大数据专家服务，但是遇到如服务范围、规格、服务选择等售前方面的问题，您可以通过钉钉与我们联系，您将“当面”获得阿里云大数据专家咨询专家的建议。...

引擎功能

时序数据高效读写 Lindorm时序引擎提供高效的并发读写，支持每秒百万数据点的数据读取及千万数据点的写入能力。数据写入支持以下方式进行数据写入：使用SQL的INSERT语句（推荐使用JDBC）。兼容InfluxDB的写入Line Protocol。兼容OpenTSDB...

数据上云场景

数据库数据同步数据库的数据同步到MaxCompute需要根据数据库的类型和同步策略来选择相应的工具。离线批量的数据库数据同步：可以选择DataWorks，支持的数据库种类丰富，包括MySQL、SQL Server、PostgreSQL等，详情请参见通过向导模式配置...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

StarRocks跨集群数据迁移工具

本文将指导您如何使用StarRocks跨集群数据迁移工具。该工具提供全量及增量同步功能，旨在为您解决迁移过程中源集群与目标集群的数据同步问题，确保数据一致性的同时，最大限度减少对业务运营的影响。迁移准备在开始迁移前，请完成以下准备...

创建Redis数据源

说明通常情况下，生产数据源和开发数据源需配置为非同一个数据源，以实现开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。参数描述部署方式支持集群和 ...

应用场景

数据分析业务云数据库 Memcache 版搭配大数据计算服务 MaxCompute。实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作...

使用生态工具消费PolarDB-X的binlog

使用同步工具消费 PolarDB-X 的binlog 说明依托于MySQL复制协议的开放性，业界有很多基于MySQL binlog的数据同步生态工具，这些工具在很多行业和企业被广泛使用，PolarDB-X 针对这些工具进行了专门的适配测试，目前已验证的工具列表如下。...

数据查询

使用预降采样查询提升查询性能大范围的时间查询预降采样通过存储引擎将写入的数据降低精度后单独存储，查询时按查询条件中指定的降采样精度自动查询最接近预降采样精度的数据，然后再对查询的数据进行聚合计算，减少实时查询的计算数据...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

基于MaxCompute进行大数据BI分析

本实践以电商行业为例，通过MaxCompute、DataWorks对业务数据和日志数据进行ETL处理，并同步至分析型数据库MySQL（AnalyticDB MySQL）进行实时分析，再通过Quick BI进行可视化展示。背景信息 MaxCompute：用于进行大规模数据计算，详情请...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

大数据开发治理平台 DataWorks

大数据开发治理平台 DataWorks基于MaxCompute/EMR/Hologres等大数据计算引擎，为客户提供专业高效、安全可靠的一站式大数据开发与治理平台，自带阿里巴巴数据中台与数据治理最佳实践，赋能各行业数字化转型。每天阿里巴巴集团内部有数万名...

云产品集成

您可以使用 DMS 录入云数据库 OceanBase 的数据，通过 DMS 的全域数据资产管理、数据治理、数据库设计开发、数据集成、数据开发和数据消费等功能，帮助企业高效、安全地挖掘数据价值，助力企业数字化转型。什么是数据管理DMS 支持的数据库...

数据建模

本文将为您介绍如何载入DataWorks中处理好的数据到人工智能平台PAI中，构建窃漏电用户的识别模型。前提条件开始本文的操作前，请首先完成加工数据中的操作。新建实验新建空白工作流并进入工作流，具体操作，请参见新建自定义工作流。...

Hadoop DistCp介绍

Hadoop DistCp（分布式复制）是一个用于大型集群间或集群内数据复制的工具，通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

MaxCompute AI Function介绍

用户无需编写底层模型调用代码，即可通过标准SQL或MaxFrame（分布式Python引擎）直接调用大模型或机器学习模型，显著降低用户在数据处理、大数据分析等场景的AI使用门槛。场景概述随着大模型对于数据的理解能力显著增强，具备了从多模态...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

创建TDengine数据源

通过新建TDengine数据源能够实现Dataphin读取TDengine的业务数据或向TDengine写入数据。本文为您介绍如何创建TDengine数据源。权限说明仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员...

创建Greenplum数据源

背景信息 Greenplum是一款大数据分析引擎，适用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。权限说明仅支持拥有新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、...

数据上云工具

您可以根据实际应用场景，选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端（Tunnel通道系列）客户端基于批量数据通道的SDK，实现了内置的Tunnel命令，可对数据进行上传和下载，Tunnel命令的使用请参见 Tunnel命令...