大数据入门实践 pdf

_相关内容

产品简介

大数据专家服务 大数据专家服务(Bigdata Expert Service)是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障,帮助用户...

构建数据仓库

方案优势:阿里巴巴大数据最佳实践,高性能、低成本、Serverless服务,免运维、全托管模式,让企业的大数据研发人员更聚焦在业务数据的开发、生产、治理。产品组合:MaxCompute+Flink+DataWorks。场景说明 用户数据来源丰富,包括来自云端...

E-MapReduce弹性低成本离线大数据分析

离线大数据分析概述 主流的三分布计算框架系统分别为Hadoop、Spark和Storm:Hadoop可以运用在很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集。Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流...

什么是数据管理DMS

数据管理DMS(Data Management)是一款支撑数据全生命周期的一站式数据管理平台。DMS提供全域数据资产管理、数据治理、数据库设计开发、数据集成、数据开发和数据消费等功能,致力于帮助企业高效、安全地挖掘数据价值,助力企业数字化转型...

E-MapReduce本地盘实例规模数据集测试

本文介绍如何使用阿里云E-MapReduce搭建本地盘机型集群节点,并进行大数据基准性能测试。应用范围 需要使用阿里云E-MapReduce+本地盘进行大数据业务前进行性能测试的用户。需要将线下自建大数据集群迁移到阿里云云上E-MapReduce+本地盘进行...

2020年

新功能 MC-Hologres 是为大数据设计的实时交互分析产品,它与MaxCompute无缝打通,支持数据实时写入,支持PB级数据进行高并发、低延时的分析处理。兼容PostgreSQL协议,可以使用您最熟悉的BI工具对海量数据进行自助的多维分析透视和业务...

2021年

新功能 MaxCompute提供湖仓一体方案,该方案可以打破数据湖与数据仓库割裂的体系,并将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合,助力构建数据湖和数据仓库相融合的数据管理平台。MaxCompute湖仓一体概述 2021年2...

MySQL分库分表同步至Hologres(方案2.0)

本文将以MySQL分库分表实时写入实时数仓Hologres场景为例,为您介绍分库分表写入Hologres数据集成最佳实践。前提条件 已完成Hologres和MySql数据源配置。您需要将数据库添加至DataWorks上,以便在同步任务配置时,可通过选择数据源名称来...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者,打造一个具备开放自主开发与全栈数据研发能力的一站、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台,即可实现数据...

Tair扩展数据结构概览

数据库 Redis 版 与开源Redis相同,支持String、List、Hash、Set、Sorted Set、Stream等数据类型,能够满足部分场景下的开发需求,但无法直接满足一些复杂场景的业务需求,需要通过开发大量代码、使用Lua脚本等复杂的方式实现。...

Tair命令概览

云原生内存数据库Tair 存在多个版本、系列和架构,各种类型的实例对于Redis命令的支持度有所不同。根据本章节的导航信息,您可以快速找到Tair各版本支持的命令和限制使用的命令。命令支持概览 兼容Redis社区版命令 云原生内存数据库Tair ...

创建及管理外部表

外部表是指不存储数据于交互分析Hologres中的表,仅用于查看外部表的数据。HoloStudio的PG管理模块,支持使用可视化方式创建、查看以及删除外部表。本文为您介绍在HoloStudio中基于PG管理的外部表操作。说明 HoloStudio已下线,详情请...

发展历程

国家大数据博览会十佳产品:最佳案例实践奖。2017年 TPC的benchmark适配MaxCompute,进行了全球首次基于公共云的BigBench大数据基准测试,数据规模拓展到100 TB,成为首个突破7000分的引擎,性能达到7830 QPM。获得中国国际软件博览会金奖...

数据标准

数据标准使用 数据标准创建完成后,需要将数据标准导入DataWorks,再使用建模工具DDM客户端同步导入DataWorks中的数据标准,以供后续数据建模使用,具体请参见 入门实践。说明 目前使用DDM进行数据建模可以进行逻辑建模和物理建模,但物理...

内存型

云原生内存数据库Tair 内存型(简称内存型)适合并发量、读写热点多、高性能场景,内存型重点增强了多线程性能并集成多个自研扩展数据结构。购买方式 创建实例 主要优势 类别 说明 兼容性 100%兼容原生Redis,无需修改业务代码,提供 ...

快速入门

本文介绍大数据专家服务的购买方式。价格 版本定价说明:点击查看价格。操作步骤 第一步:进入阿里云官网,打开 大数据专家服务 产品详情。第二步:点击大数据专家服务产品详情页中的“咨询购买”接入钉群与专家服务同学沟通场景需求。第三...

概述

(可选)熟悉操作流程与界面:入门实践 为您提供了试用操作的数据样例和模型样例,您可参见此章节操作验证,快速了解数据建模的使用流程与界面。功能概览 阿里云DataWorks的数据建模(DATABLAU)主要提供如下功能:模型的可视化设计:提供...

基础版

生产质量评估和故障回溯 开始使用 您可以通过最佳实践快速入门,向云时序数据库InfluxDB®中写入和查询数据。使用Influx CLI(命令行界面)连接TSDB For InfluxDB® 从采集到分析-TSDB For InfluxDB®让你的数据产生价值 Grafana接入阿里云...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统,构建清晰的数据流,让您更好的释放数据的价值。...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力,本文以一个零售电商行业的数仓搭建实验为例,为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现,帮助您深入了解阿里云...

互联网、电商行业离线大数据分析

通过阿里云MaxCompute、云数据库RDS MySQL、DataWorks等产品,可以实现互联网、电商网站的离线数据分析,且支持通过DataV大屏展示分析后的业务指标数据。概述 电商网站的销售数据通过大数据进行分析后,可以在屏幕展示销售指标、客户指标...

准备环境

为保证您可以顺利完成本次实验,请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和 人工智能平台 PAI。前提条件 注册阿里云账号,详情请参见 注册阿里云账号。实名认证,详情请参见 个人实名认证 背景信息 本次...

什么是DataWorks

中国国际大数据产业博览会十佳大数据案例 中国信通院:数据集成工具、数据管理工具、数据开发平台、数据脱敏工具、数据分类分级等评测 学习路径 您可以通过DataWorks文档首页的 学习路径,快速了解DataWorks的相关概念、基础操作及进阶操作...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

快速入门

同时您也可以参见数据迁移系列文档,将第三方Elasticsearch、云数据库和大数据云产品数据迁移至阿里云Elasticsearch。背景信息 在阿里云Elastic Stack产品生态下,Elasticsearch作为实时分布搜索和分析引擎,Logstash采集、转换、优化和...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一,而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

大数据安全治理的难点

存储 众所周知,大数据系统以数据类型多(结构化、非结构化、半结构化)、数据(动辄PB级别)著称,某些巨头组织一天就能新增数十万甚至数百万张表,如此体量给数据分级分类带来了极挑战,通过人工进行数据分级分类显然是不现实的,...

2022年

基于MaxCompute的智能推荐解决方案 基于MaxCompute+开放搜索的电商、零售行业搜索开发实践 基于MaxCompute+PAI的用户增长方案实践 基于MaxCompute的实时数据处理实践 基于MaxCompute分布Python能力的规模数据科学分析 基于MaxCompute+...

客户案例

DataWorks在多个行业中均有典型的案例落地,帮助多个行业的企业解决数据痛点,挖掘数据价值,本文为您介绍典型行业中已落地的客户案例。新零售行业:大润发云上数据中台建设 客户架构如下。客户简介 为了快速数字化转型,拥抱新零售,...

实现开发生产等多套环境隔离

使用DataWorks进行大数据开发时,支持对开发、测试、生产等环境进行隔离,当您联合使用了其他阿里云产品时,也可根据环境隔离诉求进行对应业务的环境设置与隔离,本文以DataWorks联合EMR、OSS等产品为例,为您介绍如何实现开发生产等多套...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明 上图中,虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的...

Napatech案例

Lindorm支持海量数据的低成本存储、快速批量导入和实时访问,具备高效的增量及全量数据通道,可轻松与各类大数据平台集成,完成数据规模离线分析。基于Lindorm的解决方案,用户在采用到100Gbps+流量产生的大量数据包元数据直接通过...

账单数据订阅及查询分析

您可在用户中心订阅不同类型的账单数据,例如,计费项明细账单、计费项账单按天汇总等。订阅成功后,账单数据将会定时同步至MaxCompute,您...相关文档 大数据分析工具的常见问题和解决方法,详情请参见 大数据分析工具的常见问题和解决方法。

数据分析整体趋势

另一方面,分布式数据库也快速发展,融合了部分大数据技术和存储格式,在扩展性层面获得了很好提升。在数据分析场景,两者解决的都是相同问题。市场趋势 数据规模高速增长(全球2010-2025年复合增长达到27%,中国则大于30%)带来了强劲的...

东软案例

客户感言 利用阿里云新一代 云原生多模数据库 Lindorm“灵动”引擎驱动的政府、企业数字信息系统智能运维解决方案,东软做到了实时、海量、异构监控数据一站存储,实现指标、日志、代码链路和网络包等异构数据融合分析,高可靠数据保障和...

DataWorks模块使用说明

使用流程概览:参考文档:DataWorks数据建模 子模块:数据开发(DataStudio)功能说明:数据开发(DataStudio)是一站式大数据开发平台,支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

云产品集成

您可以使用 DMS 录入云数据库 OceanBase 的数据,通过 DMS 的全域数据资产管理、数据治理、数据库设计开发、数据集成、数据开发和数据消费等功能,帮助企业高效、安全地挖掘数据价值,助力企业数字化转型。什么是数据管理DMS 支持的数据库...

大数据AI公共数据集分析

本教程通过DataWorks,联合云原生大数据计算服务MaxCompute,使用大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等公共数据),指导您如何快速进行大数据分析,快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

MySQL分库分表同步至Hologres(方案1.0)

本文以MySQL分库分表实时写入Hologres场景为例,为您介绍如何通过数据集成同步分库分表数据至Hologres。前提条件 已完成Hologres和MySql数据源配置。您需要将数据库添加至DataWorks上,以便在同步任务配置时,可通过选择数据源名称来控制...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用