大数据专业的软件-大数据专业的软件文档介绍内容-移动阿里云

Doris

并且这两类进程通过一致性协议来保证服务的高可用和数据的高可靠，这种高度集成的架构设计极大的降低了一款分布式系统的运维成本。从以下五个方面介绍Doris技术：在使用接口方面，Doris采用MySQL协议，高度兼容MySQL语法，支持标准SQL，您...

互联网、电商行业离线大数据分析

通过阿里云MaxCompute、云数据库RDS MySQL、DataWorks等产品，可以实现互联网、电商网站的...可视化编辑：在图形化的编辑页面，通过拖拽即可完成专业级的大数据可视化。方案详情方案的详情请参见互联网、电商行业离线大数据分析和大屏展示。

大数据专家服务

大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户构建和持续优化的大...

自媒体：易撰

所属行业：自媒体网站地址：易撰客户介绍长沙营智信息技术有限公司是专业的新媒体大数据服务商，其旗下知名品牌易撰，基于新媒体大数据挖掘技术及NLP算法分析，为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

应用场景

实时数据通道接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。收益系统解耦...

云服务器 ECS 数据保护方案选型

文件备份具备专业备份软件的重复数据删除与压缩能力，您只需要为重删压缩后的实际备份存储容量大小付费。说明重删压缩比受您业务数据类型及增量的影响，通常情况下，文本文件的重删压缩比可达约30:1，VMware虚拟机的重删压缩比可达100:1...

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR，它将EMR的大数据处理能力与ECS的弹性灵活优势相结合，使得您能够更加便捷地配置和管理EMR集群，同时支持多种开源和自研大数据组件，适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成，分别...

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

组件操作

EMR提供的组件包括开源和自研两大类，涵盖数据开发、计算引擎、数据服务、资源管理、数据存储、数据集成等领域，您可以按需选择和配置。说明在创建集群时，如果没有您想使用的组件，或者想使用的开源组件仅对存量用户开放，您可以自行安装...

数据集成概述

5分钟快速了解背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效地配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错、...

客户案例

互联网行业：快狗打车云上大数据仓库客户简介快狗打车则一直坚持通过“连接网络化”、“运力共享化”、“过程数据化”、“匹配智能化”等数字信息化解决方案，将闲散运力统一整合到平台上，通过大数据将运力精准匹配市场需求，实现运力的...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

索引优化

在大部分传统的TP型数据库中，索引可以极大的提高数据的访问效率。但是在类似与 AnalyticDB PostgreSQL版这样的分布式数据库中，应该谨慎的选择索引的使用。在大部分场景下，AnalyticDB PostgreSQL版更适合快速的顺序扫描，或者结合稀疏...

数据库节点

支持创建数据库节点数据源数据源类型数据源简介 MySQL MySQL是用于存储和处理数据的关系型数据库管理系统（RDBMS），是最流行的关系型数据库管理系统之一，其体积小、速度快、总体拥有成本低。更多介绍请参见 MySQL。SQL Server SQL ...

数据集成

5分钟快速了解背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效地配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错、...

研发规范

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

应用场景

云数据库MongoDB版支持单节点、副本集和分片集群三种部署架构，具备安全审计、时间点备份等多项企业能力。在互联网、物联网、游戏、金融等...大数据应用：使用云数据库MongoDB作为大数据的云存储系统，随时进行数据提取分析，掌握行业动态。

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多详情请参见 Apache Hudi官网。权限说明仅支持具备新建数据源权限点的自定义...

应用场景

大数据场景云数据库HBase支持海量全量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势如下：低成本：高压缩比，数据冷热分离，...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多详情请参见 Apache Hudi官网。权限说明仅支持具备新建数据源权限点的自定义...

应用场景

解决方案 DataWorks 联合 MaxCompute、Hologres 等云原生大数据引擎，提供一套湖仓一体、流批融合的一站式智能数据平台解决方案，帮助企业打破数据处理的时效壁垒。统一的数据接入与分层通过 DataWorks 数据集成(Data Integration)，...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

创建IMPALA数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

什么是MaxCompute

云原生大数据计算服务MaxCompute（原名ODPS）是阿里云自主研发的集高性价比、多模计算、企业级安全和 AI驱动于一体的企业级SaaS化智能云数据仓库（AI-Native Datawarehouse）。视频简介产品简介 MaxCompute是面向分析的企业级 SaaS ...

创建IMPALA数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

创建Aliyun HBase数据源

通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。背景信息 Aliyun HBase即阿里云的云数据库HBase，是低成本、高扩展、云智能的大数据NoSQL。...

限制说明

数据大小云数据库 Memcache 版支持的单条缓存数据的 Key 最大不超过 1 KB，Value 最大不超过 1 MB，过大的数据不适合存储。事务支持云数据库 Memcache 版不支持事务，有事务性要求的数据不适合写入，而应该直接写入数据库。使用场景当...

数据分析概述

DataWorks提供的数据分析平台，可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中，您不仅可以在线洞察数据，还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势与本地数据分析相比...

创建Aliyun HBase数据源

通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP...

节点开发

DataWorks的Data Studio模块提供多种节点以满足不同数据处理需求：数据集成节点用于同步，引擎计算节点（如MaxCompute SQL、Hologres SQL、EMR Hive）用于数据清洗，通用节点（如虚拟节点和do-while循环节点）用于复杂逻辑处理。...

数据质量

典型工作流程如下：功能介绍 DataWorks 数据质量支持对常见大数据存储（MaxCompute、E-MapReduce、Hologres、AnalyticDB 等）进行质量校验，从完整性、准确性、一致性等多个维度配置监控规则，并与调度任务关联，实现自动化校验与问题告警...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

Quick BI连接MaxCompute

背景信息智能分析套件 Quick BI 是一个专为云上用户设计的易上手且性能强的大数据分析平台，不仅是业务人员查看数据的工具，更是数据化运营的助推器。前提条件在执行操作前，请确认您已满足如下条件：已创建MaxCompute项目。已获取可...

外部表概述

但这两种方法都有不足之处：第一种方法需要在MaxCompute系统外部做一次中转，如果OSS数据量太大，还需要考虑如何并发来加速，无法充分利用MaxCompute的大规模计算能力。第二种方法通常需要申请UDF网络访问权限，还需要开发者自己控制作业...

创建HBase数据源

通过创建HBase数据源，可以实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。前提条件已购买及开通了数据服务或标签服务模块的高可用功能才可以进行数据源的主备链路配置。背景信息 HBase是用于处理...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

管理内置数据集

云原生数据仓库 AnalyticDB MySQL 版支持加载内置数据集，方便您快速体验或测试 AnalyticDB for MySQL 集群。您可以通过控制台手动加载内置数据集。本文介绍如何加载和删除内置数据集。注意事项仅企业版、基础版及湖仓版集群支持加载...