建立大数据中心

_相关内容

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题,经过多年迭代...

使用MaxCompute控制台(离线)

查看上传记录 提交上传后,若数据量较,需要耗费一些时间,您无需在提交页面一直等待,可后续通过单击 数据上传 页面右上角的 查看上传记录 查看通过该功能上传数据的详情记录。说明 通过该页面的 查看上传记录 查询到的记录详情也包含...

创建HBase数据

通过创建HBase数据源能够实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase,在导出Dataphin数据至HBase,您...

OSS数据离线同步至MaxCompute

Region和Endpoint对照表请参见 访问域名和数据中心。添加数据源 新建OSS数据源 在DataWorks 数据源管理 页面,单击 新建数据源,根据界面提示新建OSS数据源。OSS数据源支持 RAM角色授权模式 与 Access Key认证模式 两种方式:Access key...

OSS数据离线同步至MaxCompute

Region和Endpoint对照表请参见 访问域名和数据中心。添加数据源 新建OSS数据源 在DataWorks 数据源管理 页面,单击 新建数据源,根据界面提示新建OSS数据源。OSS数据源支持 RAM角色授权模式 与 Access Key认证模式 两种方式:Access key...

DataWorks On MaxCompute使用说明

数据地图概述 安全中心 数据保护伞 审批中心 安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面,帮助用户落地数据安全治理事项。安全中心概述 ...

有数BI

说明 您可以在工作区将多张表关联成一张表,也可以进行数据处理,例如字段重命名、类型转换、空值处理、建立数据字典、添加计算字段、创建层级、分组等操作。具体操作,请参见 模型制作演示。选择指定文件夹或新建文件夹后,单击 确定,...

DataWorks On Hologres使用说明

数据地图概述 安全中心 数据保护伞 审批中心 安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面,帮助用户落地数据安全治理事项。安全中心概述 ...

JindoFS实战演示

Flume高效写入OSS Flume高效写入OSS 2021-06-01 Flume是一个分布式、可靠、高可用的系统,支持从不同数据源高效地收集、聚合、迁移大量日志数据,聚合到中心化的数据存储服务,被广泛用于日志收集场景中。由于OSS本身不支持Flush功能,而...

支持的云服务

数据集成 MaxCompute可以通过数据集成功能加载不同数据源(例如MySQL数据库)的数据,也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已集成在DataWorks上,您可以直接在DataWorks上配置MaxCompute数据源并读写...

导入概述

为了更好地满足各种不同的业务场景,StarRocks支持多种数据模型,StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景,以及一些最佳实践案例和常见问题。背景信息...

ListDoctorHiveTables-批量获取Hive表分析结果

数据指的是 7 日内没有访问的数据,但是 30 日以内有访问的数据。coldDataSize:冷数据数据量大小。冷数据指的是 30 日内没有访问的数据,但是 90 日以内有访问的数据。freezeDataSize:极冷数据数的据量大小。极冷数据指的是 90 日以内...

MaxCompute近实时增全量一体化架构介绍

面对当前日益复杂且对数据时效性要求极高的近实时业务场景,MaxCompute基于Transaction Table2.0推出了集规模存储、高效批量处理和近实时能力于一体的近实时增量一体化架构。本文为您介绍该架构的工作原理及其优势。背景和现状 在当前...

散点层

重要 该配置项为一个数组,配合数据分级使用,从类型1到类型n为递增的设置,例:类型1设置为10,则表示value值为0~10的数据将展示为10的大小,类型2设置为20,则表示value值为11~20的数据将展示为20的大小,如果数据分级配置项设置为3级,...

迁移方案概览

建议使用高速通道(Express Connect)或智能接入网关SAG(Smart Access Gateway)将本地数据中心和云上专有网络打通,然后通过 专线/VPN网关/智能网关 的接入方式将自建数据库接入DTS。更多信息,请参见 连接本地IDC。云企业网CEN 源为自建...

散点层

数据源 单击 配置数据源,可在 设置数据源 面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果,详情请参见 配置资产数据数据过滤器 数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击 添加过滤器...

DataWorks数据服务对接DataV最佳实践

DataV通过与DataWorks数据服务的对接,通过交互式分析Hologres连接DataWorks数据服务开发并生成API,快速在DataV中调用API并展现MaxCompute的数据分析结果。数据服务对接DataV产生背景 MaxCompute是阿里巴巴集团自主研究的快速、完全托管的...

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型,提供TB、PB、EB级数据计算能力,能够更快速的解决用户海量数据计算问题,有效降低企业成本。功能集 功能 功能描述 参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...

同步时源库为Db2 for LUW的注意事项及限制

说明 如为增量同步任务,DTS要求源数据库的数据日志保存24小时以上,如为全量同步和增量同步任务,DTS要求源数据库的数据日志至少保留7天以上(您可在全量同步完成后将数据日志保存时间设置为24小时以上),否则DTS可能因无法获取数据日志...

新零售:特步

对访问量和数据量较的业务中心,例如订单中心,PolarDB-X 采用了水平拆分的方式,结合弹性升降配和平滑扩容使数据库具备了100 TB数据存储的能力、10万TPS、百万QPS的支撑能力,可以支撑特步扩展业务至当前业务量的5~10倍。从数据的实时性...

通过VPN网关实现本地IDC与DTS云服务互通

企业可以通过公网网络类型的VPN网关在本地数据中心和VPC之间建立IPsec-VPN连接,实现本地数据中心和VPC之间的加密互通,然后在本地数据中心和VPC之间加密互通的基础上使用DTS实现本地数据中心下的数据自动同步至VPC的数据库中。前提条件 您...

什么是Dataphin

运维中心 资产全景及目录 支持采集、解析和管理基础数据中心、公共数据中心、萃取数据中心的元数据。在元数据中心基础上,深度分析元数据,实现数据资产化管理。为您可视化地呈现资产分布、元数据详情等,方便您快速查找、深度了解数据资产...

DataWorks on EMR数据安全方案

大数据领域,阿里云为企业用户提供了一整套数据安全方案,包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例,为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

功能特性

EMR on ECS 功能集 功能 功能描述 参考文档 集群管理 创建集群 您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架,以进行规模数据处理和分析等操作。创建集群 释放集群 在完成EMR集群任务后及时释放集群,可以释放资源...

东软案例

解决方案 东软集团围绕运营商、政务云和汽车等行业新一代数字信息系统IT运维场景海量监控数据存储分析痛点,将从遍布全国多地域的手机、平板等终端连接应用系统业务服务的数字足迹和客户数字体验数据、云端&数据中心网络抓包分析数据,应用...

识别任务说明

文件或表扫描限制 为了避免数据源中文件或表过影响整体扫描进度,数据安全中心对可以扫描的文件大小或表的字段大小做了限制,请您在进行敏感数据扫描前了解以下规则:结构化数据(RDS MySQL、RDS PostgreSQL、PolarDB等)、大数据...

客户案例

阿里妈妈 公司介绍 阿里妈妈广告业务主要是一种 P4P(Pay for Performance)形式的广告业务系统,而报表中心作为阿里妈妈向广告主透出广告效果数据的唯一平台,在阿里巴巴平台丰富多样的商业场景下,为客户提供优质,高效,可靠的数据...

审计配置

在使用 数据安全中心DSC(Data Security Center)提供的安全审计功能前,您需要先完成审计配置。DSC 根据您配置的审计模式采集审计日志,并根据已开启的审计规则上报审计告警。本文介绍如何进行审计配置。前提条件 已购买 DSC 企业版。具体...

高效数据治理实施指南

DataWorks数据治理中心可协助数据治理团队建立数据治理框架、优化治理过程、提升治理效率,从而实现治理目标的高效突破。本文通过治理负责人的实操过程,为您介绍如何通过数据治理计划能力,高效设定和达成数据治理目标。背景信息 在多人...

什么是数据库网关

DBS提供秒级恢复、备份数据湖分析等能力,可触达本地数据中心、其他云厂商、专有云及公共云等环境,构建企业级混合云统一备份平台。数据库备份DBS支持通过数据库网关备份本地或第三方云的私网数据库到云存储,可将数据库低成本地接入至阿里...

RestAPI Reader最佳实践

数据集成RestAPI Reader插件提供了读取RESTful接口数据的能力,通过配置HTTP请求地址,可获取RestAPI类型的数据数据(例如获取时间范围内的数据、获取分页数据、循环请求参数获取数据等),并转换为数据集成支持的数据类型,传递给下游...

2023年

使用do-while节点实现复杂的数据分析 2023-09-20 新增通过跨项目数据访问实现不同地域MaxCompute项目数据迁移 新说明 本文为您介绍如何通过跨项目数据访问实现不同Region的MaxCompute项目数据迁移,包括两种使用场景:同云账号内不同Region...

建立性能基准

测试项 测试值 数据同步时间 无 占用存储大小 无 查询执行时间 无 查询费用预估 无 记录数据同步时间 在您执行数据同步任务后,可以在 运维中心>周期实例 页面右键查看用户任务运行时间,如下图所示。记录占用存储大小 登录 DataWorks控制...

建立性能基准

测试项 测试值 数据同步时间 无 占用存储大小 无 查询执行时间 无 查询费用预估 无 记录数据同步时间 在您执行数据同步任务后,可以在 运维中心>周期实例 页面右键查看用户任务运行时间,如下图所示。记录占用存储大小 登录 DataWorks控制...

模型画布简介

在模型画布中,您可通过鼠标的拖拽和简单的条件设定,即可快速实现数据和原子算法的快速组装,即便是没有基础的业务人员,也可方便的建立自己的模型、形成自己的标签、自主探索使用数据。本文介绍模型画布,方便您快速入手模型建立。序号 ...

创建与释放全球多活数据库集群

双向同步任务时,DTS会在中心节点和单元节点中建立名为 dts 的库,以避免数据循环同步,任务运行期间,请勿修改该库。rdsdt_dtsacct是全球多活数据库的同步账号,请勿修改账号的密码,否则导致数据同步失败。执行数据同步前需评估源库和...

配置并管理实时同步任务

完成数据源、网络、资源的准备配置后,您可创建实时同步节点,同步数据至Kafka。本文为您介绍如何创建数据实时同步任务,并在创建完成后查看任务运行情况。前提条件 已完成数据源配置。您需要在数据集成同步任务配置前,配置好您需要同步的...

基于DLF、RDS或Flink、OSS支持Delta Lake或Hudi存储...

Delta Lake和Hudi是数据湖方案中常用的存储机制,为数据湖提供流处理、批处理能力。MaxCompute基于阿里云DLF、RDS或Flink、OSS产品提供了支持Delta或Hudi存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据,即时洞察业务数据...

离线同步常见问题

您可以在 DataStudio 修改数据集成任务调试所用的资源组,同时,也支持您在 运维中心 修改任务调度时所使用的数据集成任务执行资源组。配置详情请参见:新增和使用独享数据集成资源组。脏数据如何排查和定位?脏数据定义:单条数据写入目标...

配置并管理实时同步任务

完成数据源、网络、资源的准备配置后,您可创建实时同步节点,同步数据至DataHub。本文为您介绍如何创建数据实时同步任务,并在创建完成后查看任务运行情况。前提条件 已完成数据源配置。您需要在数据集成同步任务配置前,配置好您需要同步...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用