大数据原理与实践

_相关内容

数据分析整体趋势

大数据与数据库一体化:早期大数据技术以牺牲一定程度一致性为基础提供分布式能力,解决了传统单机数据库的扩展性不足问题,在MapReduce基础上提供了标准SQL接口,架构上也逐步采用了部分MPP数据库技术;另一方面,分布式数据库也快速发展...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集存储、数据分析处理、数据提取和数据展现分享。说明 上图中,虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统,构建清晰的数据流,让您更好的释放数据的价值。...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力,本文以一个零售电商行业的数仓搭建实验为例,为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现,帮助您深入了解阿里云...

相关的云服务

DataWorks作为阿里云一站式大数据开发治理平台,通常会计算引擎产品联合使用,此外使用DataWorks进行数据集成时通常联合进行数据传输的数据源产品一起使用。本文为您介绍典型场景下,使用DataWorks时通常会使用到的其他云产品。计算...

产品简介

DLA Ganos是基于云原生数据湖分析(Data Lake Analytics,DLA)系统设计开发的,面向时空大数据存储计算的数据引擎产品。基于DLA无服务器化(Serverless)数据湖分析服务内置的Spark计算引擎,DLA Ganos打通了阿里云各个存储系统,如...

简介

系统兼容开源GeoMesa、GeoServer等生态,内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等,结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力,广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

Napatech案例

Lindorm支持海量数据的低成本存储、快速批量导入和实时访问,具备高效的增量及全量数据通道,可轻松各类大数据平台集成,完成数据规模离线分析。基于Lindorm的解决方案,用户在采用到100Gbps+流量产生的大量数据包元数据直接通过...

大数据AI公共数据集分析

本教程通过DataWorks,联合云原生大数据计算服务MaxCompute,使用大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等公共数据),指导您如何快速进行大数据分析,快速熟悉DataWorks的操作界面最基础的数据分析能力。DataWorks的更...

数据

数据库备份场景下,有4个概念:数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量 说明 数据库磁盘空间 由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为:购买时选择的存储...

什么是备份数据

本文介绍数据库备份DBS中备份数据量的概念。名词解释 备份数据量,是指通过DBS备份链路的数据量。常见概念 在数据库备份DBS业务场景下,含有常见以下几个概念:数据库磁盘空间、数据文件空间、备份数据量、存储数据量等。概念 说明 数据库...

OSS数据安全防护最佳实践

应用场景 敏感数据识别 云端OSS中存储了大量的数据与文件,但无法准确获知这些OSS数据中是否包含敏感信息以及敏感数据所在的位置。您可以使用 DSC 内置算法规则,或根据其行业特点自定义规则,对其存储在OSS中的数据进行整体扫描、分类、...

备份集查询功能概览

工作原理 DBS与数据湖Data Lake Analytics深度集成,提供备份集在线查询能力,通过DLA直接对OSS上的备份数据文件进行查询。备份集查询功能的整体架构如下图所示。DBS也支持在单个备份计划下查询多个备份集。您需要选择目标备份集并创建数据...

数据迁移同步FAQ

DTS的数据迁移与数据同步工作原理是什么?DTS的数据迁移与数据同步有什么区别?使用DTS遇到预检查报错,如何解决?什么是数据迁移、数据同步?数据迁移:将Redis数据库中的数据(即键值对)迁移至另一个Redis数据库中。通常迁移完成后即可...

实时同步任务告警设置最佳实践

指标7:脏数据 报警监控原理与适用场景 配置建议 实时同步过程中当数据写入目标端失败时,此条数据会被归类为脏数据。当用户需要感知脏数据发生时,可设置此监控指标。默认实时同步任务不容忍脏数据,不需要设置脏数据指标告警。仅当实时...

DataWorks On EMR使用说明

开始使用 一、数据建模开发 模块 说明 相关文档 数据建模 数据建模是全链路数据治理的第一步,沉淀阿里巴巴数据中台建模方法论,从数仓规划、数据标准、维度建模、数据指标四个方面,以业务视角对业务的数据进行诠释,让企业内部实现“数...

导入概述

本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景,以及一些最佳实践案例和常见问题。背景信息 数据导入功能是将原始数据按照相应的模型进行清洗转换并加载到StarRocks中,方便查询使用。StarRocks提供了多种导入...

使用DataWorks(离线实时)

最佳实践 数据库整库离线同步至MaxCompute 整库离线同步至MaxCompute OSS数据离线同步至MaxCompute EMR Hive数据整库离线同步至MaxCompute 数据库增量数据离线同步至MaxCompute RDS增量数据同步至MaxCompute Kafka增量数据同步至MaxCompute...

文档修订记录

Check节点 2024.1.12 新增功能 最佳实践 新增DataWorks大数据安全治理实践新增指南,为您介绍数据安全治理的常见思路、DataWorks产品的安全能力,以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

Quick BI如何接入TSDB

Quick BI是一个基于云计算致力于大数据高效分析展现的轻量级自助BI工具服务平台。通过对数据源的连接和数据集的创建,对数据进行即时的分析查询;通过电子表格或仪表板功能,以拖拽的方式进行数据的可视化呈现。连入成功后,您可以在...

受众核心能力

使用DataWorks,您不仅可以进行海量数据的离线加工分析,还能完成数据的汇聚集成、开发、生产调度运维、离线实时分析、数据质量治理资产管理、安全审计、数据共享服务、机器学习、应用搭建等覆盖大数据全生命周期的最佳实践。...

2020年

新功能 MC-Hologres 是为大数据设计的实时交互式分析产品,它MaxCompute无缝打通,支持数据实时写入,支持PB级数据进行高并发、低延时的分析处理。兼容PostgreSQL协议,可以使用您最熟悉的BI工具对海量数据进行自助的多维分析透视和业务...

导入概述

本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景,以及一些最佳实践案例和常见问题。背景信息 数据导入功能是将原始数据按照相应的模型进行清洗转换并加载到StarRocks中,方便查询使用。StarRocks提供了多种导入...

概述

问答机器人,通过与大模型结合搭建高效的问答机器人服务。文件去重,通过文件指纹特征来去除重复文件。优势 云原生数据仓库AnalyticDB PostgreSQL版 向量数据库通过自研向量引擎FastANN提供的向量分析能力目前已经在诸多业务中得到了广泛...

如何对JSON类型进行高效分析

PolarDB 列存索引(In Memory Column Index,IMCI)功能推出了完备的虚拟列列式JSON功能等,可以快速处理大数据和多种数据类型(包括结构化数据与半结构化数据等),并提供高效的数据分析、查询流计算能力,适用于数据分析、数据仓库...

混合存储型(已停售)

在保证常用数据访问性能不下降的基础上,混合存储型能够幅度降低用户成本,实现性能成本的平衡,同时使单个Redis实例的数据量不再受内存大小的限制。内存数据:内存中存放了热数据的Key和Value,同时为快速确认要操作的Key是否存在,...

DBLEPolarDB多主集群(库表)结合使用最佳实践

本文介绍DBLEPolarDB多主集群(库表)结合使用的最佳实践原理介绍 DBLE是一个基于Java开发的数据库中间件,通过在应用和数据库之间部署一套代理,来帮助您实现非应用侵入式的分库分表。PolarDB多主集群(库表)通过将不同的逻辑数据库...

DM(达梦)数据

DM(达梦)数据源作为数据中枢,为您提供读取和写入DM数据库的双向通道,能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DM数据同步的能力支持情况。使用限制 离线同步支持读取视图表。DM Reader和DM Writer仅支持使用 独享数据...

常见问题

支持的数据库部署位置(接入方式)阿里云实例 有公网IP的自建数据库 通过数据库网关DG接入的自建数据库 通过云企业网CEN接入的自建数据库 ECS上的自建数据库 通过专线/VPN网关/智能接入网关接入的自建数据库 阿里云实例 通过数据库网关DG接...

PostgreSQL数据

由于主备数据同步存在一定的时间差,特别在于某些特定情况,例如网络延迟等问题,导致备库同步恢复的数据与主库有较差别,从备库同步的数据不是一份当前时间的完整镜像。一致性约束 PostgreSQL在数据存储划分中属于RDBMS系统,对外可以...

库表级恢复

数据库备份DBS 支持表级别的数据恢复能力。当发生数据误删除时,您可以选择只对单个表或数据库进行恢复,而无需恢复全部数据,可用于误操作后的快速订正,以及分析历史数据等场景。功能介绍 数据库备份DBS 在执行逻辑备份时,以数据库对象...

发展历程

国家大数据博览会十佳产品:最佳案例实践奖。2017年 TPC的benchmark适配MaxCompute,进行了全球首次基于公共云的BigBench大数据基准测试,数据规模拓展到100 TB,成为首个突破7000分的引擎,性能达到7830 QPM。获得中国国际软件博览会金奖...

E-MapReduce本地盘实例规模数据集测试

本文介绍如何使用阿里云E-MapReduce搭建本地盘机型集群节点,并进行大数据基准性能测试。应用范围 需要使用阿里云E-MapReduce+本地盘进行大数据业务前进行性能测试的用户。需要将线下自建大数据集群迁移到阿里云云上E-MapReduce+本地盘进行...

Stream Load

StarRocks支持从本地直接导入数据,支持CSV文件格式,数据量在10 GB以下。本文为您介绍Stream Load导入的基本原理、使用示例和最佳实践。背景信息 Stream Load是一种同步的导入方式,通过发送HTTP请求将本地文件或数据流导入到StarRocks中...

高维向量相似度搜索(pgvector)

测试结果 向量数据、索引数据占用的存储空间以及TPS与数据量之间的测试结果 数据量(单位:万行)table size(单位:MB)index size(单位:MB)Latency(单位:ms)TPS(单位:个)10 796 782 15.7 380 30 2388 2345 63 94 50 3979 3907 ...

Stream Load

StarRocks支持从本地直接导入数据,支持CSV文件格式,数据量在10 GB以下。本文为您介绍Stream Load导入的基本原理、使用示例和最佳实践。背景信息 Stream Load是一种同步的导入方式,通过发送HTTP请求将本地文件或数据流导入到StarRocks中...

Stream Load

数据量 由于Stream Load的原理是由BE发起的导入并分发数据,建议的导入数据量在1 GB到10 GB之间。由于默认的最大Stream Load导入数据量为 10 GB,所以导入超过10 GB的文件就需要修改BE的配置 streaming_load_max_mb。例如,如果待导入文件...

预降采样

本文介绍预降采样的概念,创建和管理预降采样规则的方法,查询预降采样数据的方法,以及预降采样的最佳实践。前提条件 时序引擎版本为3.4.19以上。说明 如何查看或升级时序引擎版本,请参见 时序引擎版本说明 和 升级小版本。功能介绍 预降...

大数据安全治理的难点

大数据体系的特点安全治理难点 由于大数据系统在“存储、用户、入口、流转、交付”等多方面的特点,想要回答好上述问题,存在诸多难点。存储 众所周知,大数据系统以数据类型多(结构化、非结构化、半结构化)、数据(动辄PB级别)...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用