大数据生态圈是什么-大数据生态圈是什么文档介绍内容-移动阿里云

DataWorks模块使用说明

使用流程概览：参考文档：数据集成概述数据建模与开发子模块：数据建模功能说明：数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行...

EMR Studio概述

EMR Studio核心优势优势描述兼容开源 EMR Studio提供深度优化的开源组件使用体验，100%兼容开源大数据生态。您无需修改任务代码，即可平滑迁移上云。通过EMR Studio数据开发工作台，您可以在开源组件原生UI的基础上无缝衔接开发环节和...

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

Tunnel命令常见问题

java.io.IOException:Error writing request body to server 产生原因这是上传数据到服务器时产生的异常，通常是因为上传过程中的网络连接断开或超时导致的：当您的数据源并非是本地文件，需要从数据库等地方获取时，数据在写入的过程中还...

数据服务

为什么数据服务无法连接ECS自建的数据库？是否必须开通API网关？如何配置数据源？数据服务是否支持MaxCompute（ODPS）数据源？向导模式生成API与脚本模式有何功能差异？数据服务中的API分组的作用是什么，与API网关中的分组有什么关联？...

读写AnalyticDB for PostgreSQL数据

云数据库AnalyticDB for PostgreSQL（原HybridDB for PostgreSQL）是一种大规模并行处理（MPP）数据仓库服务，兼容PostgreSQL/Oracle数据库生态，支持行存储和列存储模式。数据湖分析DLA（Data Lata Analytics）支持接入AnalyticDB for ...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

功能特性

数据迁移数据迁移功能帮助您实现同构或异构数据源之间的数据迁移，适用于数据上云迁移、阿里云内部跨实例数据迁移、数据库拆分扩容等业务场景功能集功能功能描述参考文档同构迁移逻辑迁移支持同构数据库间的数据迁移。自建MySQL...

创建MongoDB数据源

通过创建MongoDB数据源能够实现Dataphin读取MongoDB的业务数据或向MongoDB写入数据。本文为您介绍如何创建MongoDB数据源。背景信息如果您使用的是MongoDB，在引入MongoDB的业务数据至Dataphin中或将Dataphin数据导出至MongoDB的场景中，您...

Hive

Hive是Hadoop生态系统中的一个被广泛使用的数据仓库工具，主要用来进行Hadoop中的大规模数据的提取、转化、加载、查询和分析等操作。Hive数据仓库工具能将存储在HDFS系统中的结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将...

创建MongoDB数据源

通过创建MongoDB数据源能够实现Dataphin读取MongoDB的业务数据或向MongoDB写入数据。本文为您介绍如何创建MongoDB数据源。背景信息如果您使用的是MongoDB，在引入MongoDB的业务数据至Dataphin中或将Dataphin数据导出至MongoDB的场景中，您...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

常见问题

数据湖后端存储使用OSS，用户使用数据湖构建面向大数据分析和机器学习场景可以获得集中式权限管理和统一的元数据视图，更容易对接云上大数据和分析产品。什么情况下我需要使用数据湖构建？在云上有数据分析和机器学习需求，希望构建云上的...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

独享资源组

独享资源组使用场景独享调度资源组使用场景独享数据集成资源组使用场景独享资源组网络配置独享资源组访问VPC环境下数据的前提条件是什么？如何查看数据源的网络环境？添加独享资源组白名单独享资源组商业化行为如何对资源组进行续费...

入仓解决方案

支持的数据库部署位置有公网IP的自建数据库无公网IP:Port的数据库（通过数据库网关DG接入）通过云企业网CEN接入的自建数据库 ECS上的自建数据库通过专线/VPN网关/智能接入网关接入的自建数据库 ECS上的自建数据库通过专线/VPN网关/智能...

索引优化

大数据集场景下优先考虑稀疏索引：如果您的数据量非常地大，并且您的查询限定条件为<、、=、>=、>，需要从大数据量的表中取出少于50%的数据，那么使用稀疏索引（BRIN Index或者AOCS表的metascan）可以极大地减少无效数据的加载。...

概述

您可以将数据库中的表或单条SQL查询结果作为数据集，在仪表盘或大屏中对数据集中的数据以表格、交叉表、折线图、柱条形图、饼图、双轴图等图形或组件展现出来，并对这些图形或组件进行自由组合、布局，以某种分析思路对业务进行直观呈现。...

EMR-3.22.x版本说明

发布日期 EMR-3.22.0 2019年7月28日新功能服务变更点 Kudu 新增组件，Kudu填补Hadoop生态圈的功能空白，可提供类似HBase快速数据插入以及随机存取的功能，允许用户进行数据修改，同时还提供类似HDFS或Parquet超大规模的数据分析以及查询...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力，您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源，实现将其他数据源的数据同步至Hive或HBase数据源，或将Hive或HBase数据...

应用场景

数据分析业务云数据库 Memcache 版搭配大数据计算服务 MaxCompute。实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作...

新建 PolarDB-X 2.0 数据源

背景信息云原生数据库 PolarDB 分布式版（简称 PolarDB-X）是由阿里巴巴自主研发的云原生分布式数据库，为您提供高吞吐、大存储、低延时、易扩展和超高可用的云时代数据库服务。详情请参见什么是云原生数据库 PolarDB 分布式版。前提条件...

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

什么是数据传输服务DTS

数据传输服务DTS（Data Transmission Service）是阿里云提供的实时数据流服务，支持关系型数据库（RDBMS）、非关系型的数据库（NoSQL）、数据多维分析（OLAP）等数据源间的数据交互，集数据同步、迁移、订阅、集成、加工于一体，助您构建...

常见问题

MaxCompute作为大数据平台，对业务数据是否有好的监控手段？MaxCompute的项目发挥什么作用？如何获取MaxCompute中的Accesskey_ID和AccessKey_Secret？现有账号的AccessKey被禁用，创建一个新的AccessKey，会对之前AccessKey创建的周期性...

DataWorks On MaxCompute使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

DataWorks On Hologres使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

低成本历史库

大数据生态 无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品，支持API访问和文件读取等多种对接方式，简单高效满足用户海量数据分析需求。典型应用用户交易记录通过App写入MySQL，LTS将MySQL中实时同步到Lindorm，近三个月状态...

创建及管理外部表

背景信息 Hologres与大数据生态无缝打通，可以直接加速查询外部表数据，也可以将外部表的数据导入至Hologres中处理。Hologres当前仅支持对MaxCompute表进行操作。使用限制 Hologres支持跨工作空间读取外部表数据，您当前使用的账号需要拥有...

低成本RDS历史库

大数据生态 无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品，支持API访问和文件读取等多种对接方式，简单高效满足用户海量数据分析需求。典型应用用户交易记录通过App写入MySQL，LTS将MySQL中实时同步到Lindorm，近三个月状态...

应用场景：低成本历史库

大数据生态 无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品，支持API访问和文件读取等多种对接方式，简单高效满足用户海量数据分析需求。典型应用用户交易记录通过APP写入MySQL，LTS将MySQL中实时同步到Lindorm，近三个月状态...

应用场景

但数据体系复杂、数据不统一，数据分析速度和数据准确一致性难保障，战略决策与数据化运营受阻。解决方案：数据融合：通过数据引入功能，将业务系统数据集成、融合一体，统一基础数据。数据建模：通过规范建模功能，结合业务发展需求，自顶...

概述

AnalyticDB PostgreSQL版向量分析可以通过AI算法提取非结构化数据的特征，并利用特征向量作为非结构化数据的唯一标识，帮您快速且低成本地实现对非结构化数据检索和对结构化数据关联分析。向量数据库简介在现实世界中，绝大多数的数据都...

什么是云数据库ClickHouse

数据生态：打通云上各个数据源，方便数据同步和迁移。存储计算分离架构：支持独立进行存储和计算资源的扩容。Share Everything架构：存储和计算资源Serverless模式按需弹性使用。计算节点：节点无状态，水平扩展无任何数据迁移。新...

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

引擎简介

丰富生态兼容HBase、Cassandra（CQL）等多种开源标准接口，与Spark、Flink等多种计算引擎互联互通，无缝对接主流数据生态。关于Lindorm宽表引擎的更多内容，请参见功能特性和 Lindorm VS HBase VS Cassandra。典型场景大数据场景：海量...