大数据技术基础知识

_相关内容

创建Teradata数据

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata,在对接Dataphin进行数据开发或导出...

什么是数据资源平台

阿里云数据资源平台是数据资产定义、加工、管理、服务的全流程平台,提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能,为智能数据应用持续稳定供给全量、标准、干净、智能的数据...

什么是云原生数据湖分析

支持 AnalyticDB PostgreSQL 支持 支持 MaxCompute 支持 支持 Elasticsearch 支持 支持 Cassandra 支持 支持 Kudu 支持 支持 ECS自建Druid数据数据 支持 支持 何时使用DLA DLA主要围绕数据湖存储OSS提供一站式的云原生数据湖分析与计算...

Delta Table概述

随着当前数据处理业务场景日趋复杂,很多业务场景并不要求延时秒级更新可见或者行级更新,更多的需求是分钟级或者小时级的近实时数据处理叠加海量数据批处理场景,MaxCompute支持基于Delta Table实现近实时的增全量一体的数据存储、计算...

数据导入性能优化

云原生数据仓库AnalyticDB MySQL版 提供的多种数据导入方法,满足不同场景下的数据导入需求。然而数据导入性能依然受各种各样的因素影响,如表的建模不合理导致长尾、导入配置低无法有效利用资源等。本文介绍不同场景下的数据导入调优方法...

数据导入性能优化

云原生数据仓库AnalyticDB MySQL版 提供的多种数据导入方法,满足不同场景下的数据导入需求。然而数据导入性能依然受各种各样的因素影响,如表的建模不合理导致长尾、导入配置低无法有效利用资源等。本文介绍不同场景下的数据导入调优方法...

基本概念

本文介绍 云原生数据仓库AnalyticDB MySQL版 的基本概念。地域 地域指数据中心所在的地理区域,通常按照数据中心所在的城市划分。例如,华北2(北京)地域表示数据中心所在的城市是北京。可用区 可用区是指在同一地域内,电力和网络互相...

内置时空数据引擎Ganos

PolarDB PostgreSQL版(兼容Oracle)内置了时空数据库引擎Ganos,可对空间/时空数据进行高效的存储、索引、查询和分析计算。从静态POI(兴趣点)到APP位置信息,从电子地图到移动对象轨迹,从卫星遥感到泛在物联网,空间和时空信息已成为...

安全基线检查

了解安全基线检查 数据安全中心以GB/T 37988-2019《信息安全技术数据安全能力成熟度模型》为依据,针对云上复杂的数据库应用环境和不同类型的数据(结构化数据和非结构化数据),制定了7类基线检查策略以及40+具体的检查项,并提供不同类型...

时序引擎应用开发简介

2.数据建模 针对业务场景进行数据建模,需要确定创建数据库和时序数据表,确定时序数据表的标签、时间戳和量测值,并根据数据特征确定PRIMARY KEY用于数据分片。关于数据模型,请参见 数据模型。时序引擎提供了三种Schema约束策略,分别为...

基础折线图

图表样式 基础折线图是移动端组件中折线图的一种,与双轴折线图相比,基础折线图的一个类目只对应一个值,主要通过多系列数据配置的方式,展示同一类目下不同数据的变化,能够以折线和区域相结合的方式,智能地展示多维的数据变化趋势。...

MapReduce

自然语言处理:基于大数据的训练和预测。基于语料库构建单词同现矩阵,频繁项集数据挖掘、重复文档检测等。广告推荐:用户单击(CTR)和购买行为(CVR)预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

基础区域图

数据源 单击 配置数据源,可在 设置数据源 面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果,详情请参见 组件数据源配置。数据过滤器 数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击 添加过滤...

基础折线图

图表样式 基础折线图是移动端组件中折线图的一种,与双轴折线图相比,基础折线图的一个类目只对应一个值,主要通过多系列数据配置的方式,展示同一类目下不同数据的变化,能够以折线和区域相结合的方式,智能地展示多维的数据变化趋势。...

导入概述

为了更好地满足各种不同的业务场景,StarRocks支持多种数据模型,StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景,以及一些最佳实践案例和常见问题。背景信息...

基础区域图

数据源 单击 配置数据源,可在 设置数据源 面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果,详情请参见 配置资产数据数据过滤器 数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击 添加过滤器...

支持的云服务

数据集成 MaxCompute可以通过数据集成功能加载不同数据源(例如MySQL数据库)的数据,也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已集成在DataWorks上,您可以直接在DataWorks上配置MaxCompute数据源并读写...

采集数据

本教程以MySQL中的用户基本信息(ods_user_info_d)表及OSS中的网站访问日志数据(user_log.txt)文件,通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例,为您介绍如何通过DataWorks数据集成实现异构...

采集数据

本教程以MySQL中的用户基本信息(ods_user_info_d)表及OSS中的网站访问日志数据(user_log.txt)文件,通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例,为您介绍如何通过DataWorks数据集成实现异构...

需求分析

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。业务背景 为了更好的制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体地理属性、社会属性等,...

需求分析

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。业务背景 为了更好的制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体地理属性、社会属性等,...

配置同步任务

数据库类型 数据源 关系型数据库 MySQL、Oracle、Microsoft SQL Server、PostgreSQL、AnalyticDB for PostgreSQL 开源大数据数仓存储 Hive、TDH Inceptor 说明 HBase作为数据源或者目标数据源,支持的版本为HBase V1.1.x、HBase V0.94.x。...

功能发布记录(2024年)

所有DataWorks用户 数据治理中心概述 数据治理中心新增物化视图功能 当您在面对大数据计算任务频繁且存在大量相似子查询场景时,DataWorks支持自动化治理,智能推荐物化视图,为您提供了一种智能化、自动化的解决方案。当您启用此功能时,...

通用数据库授权

结构化数据:RDS、PolarDB、PolarDB-X(原DRDS)、PolarDB-X 2.0、MongoDB、OceanBase、自建数据大数据:ADB-MySQL、AnalyticDB for PostgreSQL(即ADB-PG)您可以根据上表中对应数据库支持的连接方式和数据安全需求,选择合适的连接...

功能特性

Hudi存储 数据导入与导出 功能集 功能 功能描述 参考文档 大数据数据源 Maxcompute数据源 AnalyticDB for MySQL支持通过外表、DataWorks两种方式将MaxCompute数据导入至数仓版或湖仓版集群,也支持通过外表将AnalyticDB for MySQL数仓版...

存储加密

当MaxCompute项目中存有敏感信息如个人身份信息、财务记录、健康记录等,开启数据存储加密可保护这些数据不被未授权者访问。MaxCompute支持通过密钥管理服务KMS(Key Management Service)对数据进行加密存储,提供数据静态保护能力,满足...

实时同步任务延迟解决方案

用于帮助您判断数据同步延迟的瓶颈方,当数据同步发生延迟时,指标数据的一般为瓶颈方。确认造成延迟问题的系统是否有异常 当确认了延迟瓶颈是在同步任务的读端还是写端后,可在上述任务 运行详情 中切换至 日志 页签,使用 Error/...

基本折线图(v4.0及以上版本)

基本折线图是折线图的一种,与双轴折线图相比,基本折线图的一个类目只对应一个值,主要通过多系列数据配置的方式,展示同一类目下不同数据的变化,能够以折线和区域相结合的方式,智能地展示多维的数据变化趋势。本文介绍基本折线图各配置...

计费逻辑说明

资源费用明细:数据服务API调用 数据质量 数据质量可对任务产出的表数据进行数据质量监控,DataWorks将根据数据质量规则实例数量计费。资源费用明细:数据质量 OpenAPI DataWorks提供OpenAPI,您可基于OpenAPI实现业务定制化开发,...

步骤六:可视化分析

本文将使用Quick BI指导您完成本教程的可视化分析步骤,包括数据源、数据集的创建和数据大屏图表的配置。步骤一:创建数据源 登录 Quick BI控制台。按照下图操作指引,进入 创建数据源 对话框。在 MySQL-阿里云 区域,配置连接参数。参数 ...

步骤六:可视化分析

本文将使用Quick BI指导您完成本教程的可视化分析步骤,包括数据源、数据集的创建和数据大屏图表的配置。步骤一:创建数据源 登录 Quick BI控制台。按照下图操作指引,进入 创建数据源 对话框。在 MySQL-阿里云 区域,配置连接参数。参数 ...

DataWorks数据服务对接DataV最佳实践

DataV通过与DataWorks数据服务的对接,通过交互式分析Hologres连接DataWorks数据服务开发并生成API,快速在DataV中调用API并展现MaxCompute的数据分析结果。数据服务对接DataV产生背景 MaxCompute是阿里巴巴集团自主研究的快速、完全托管的...

数据归档

RDS MySQL实例数据量较时,存储成本会随之增高。业务数据通常分为冷数据和热数据,将对象存储(OSS)作为归档冷数据的存储介质,能够大幅降低用户的存储成本。功能简介 在开启RDS MySQL通用云盘的数据归档OSS功能后,用户可通过执行下面...

快速体验

技术选型 数据建模:数据开发治理平台 DataWorks数据建模(可选),标准版及以上版本可使用,需要单独购买。原始数据存储:云数据库 RDS MySQL(必选),本实验中DataWorks为您提供了阿里云RDS MySQL用于测试,包含了测试数据,无需您...

大数据开发治理平台 DataWorks

大数据开发治理平台 DataWorks基于MaxCompute/EMR/MC-Hologres等大数据计算引擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理最佳实践,赋能各行业数字化转型。每天阿里巴巴集团内部有数万...

01新建模型目录

DWD:全称Data Warehouse Detail,明细数据层,该层数据和源数据基本保持一致,保存着最细粒度的数据,一般存放所有的明细数据,是所有后期分析的数据基础。具有数据,查询计算较慢的特点。DWS:全称Data Warehouse Summary,汇总数据...

互联网、电商行业离线大数据分析

概述 电商网站的销售数据通过大数据进行分析后,可以在屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据,触控大屏支持您自助查询数据,极地提高数据的可读性。应用场景 电商...

产品架构

业务背景 伴随着信息技术的飞速发展,各行各业在业务生产中产生的数据种类越来越多,有结构化的业务元数据、业务运行数据、设备或者系统的量测数据,也有半结构化的业务运行数据、日志、图片或者文件等。按照传统方案,为了满足多种类型...

公开数据集概述

国家统计数据集 national_data TPC性能数据 TPC-DS TPC-DS是一个面向决策支持的基准,它对决策支持系统的几个普遍适用的方面进行建模,包括查询和数据维护等,使大数据系统等新兴技术能够执行基准测试。TPC-DS 10GB性能测试集 TPC-DS 100GB...

DataWorks on EMR数据安全方案

大数据领域,阿里云为企业用户提供了一整套数据安全方案,包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例,为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用