大数据分析软件设计-大数据分析软件设计文档介绍内容-移动阿里云

什么是MaxFrame

MaxFrame是阿里云MaxCompute为了满足用户在Python生态中日益增长的高效大数据处理和AI开发需求，提供的基于Python编程接口的分布式计算框架。您可直接利用MaxCompute的海量计算资源及数据通过MaxFrame进行TB/PB级数据处理、可视化数据探索...

产品和业务限制

分析型数据库MySQL版支持云监控，用户可以通过配置磁盘监控告警，为监控项设置合理的报警规则和通知方式。一旦发生磁盘异常便会立刻为您发出报警通知，让您及时知晓磁盘水位并管理磁盘空间，保证业务正常运行。和Oracle、MySQL关系型数据库...

GitHub近实时数据同步以及增全量数据一体化分析

方案架构与优势以上图示基于典型数据分析场景设计，可以满足当日近实时数据的写入以及历史离线数据的更新与查询分析场景。实现增全量数据的统一校正（包括数据聚合、去重和反作弊等），定期将全量数据回写至DWD，并对应地更新DWS和ADS的...

存储概览

此外，MaxCompute存储针对大规模数据分析查询进行了优化，具备高吞吐量的流式注入和读取能力。本文将为您介绍MaxCompaute存储的功能和特点。存储的主要特性 MaxCompute存储主要特性如下：托管式 MaxCompute存储是一项全托管式服务。您无需...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

JindoFS实战演示

Impala如何高效查询OSS数据 Impala如何高效查询OSS数据 2021-06-08 Apache Impala是一个开源的大数据查询分析引擎，能够快速查询分析存储在Hadoop集群的PB级数据。如果您已将HDFS数据迁移至OSS中，可通过在Impala中使用JindoFS SDK，高效...

新榜案例

需分析、大数据量聚合的数据列：创建列存索引，存储在列存引擎内。超高性能，降本增效 Lindorm的宽表引擎支持千万级并发写入与点查，有效分流搜索库负载，同时通过深度压缩算法优化实现存储成本降低。与原Elasticsearch方案相比，Lindorm...

轻松上手 Quick BI 智能小Q

对比维度传统搭建仪表板小Q问数用户群体用户需具备一定数据分析技能业务人员也能通过自然语言提问，开展业务数据分析 分析灵活性设计阶段，需设计固定的分析路径，选择合适的可视化展示组件提问前，支持动态、非预设的分析需求操作...

作品复制管控

对于安全要求比较高的企业，默认允许复制数据可能带来较大的数据安全问题。Quick BI推出作品复制管控功能，组织管理员可以设置开启或关闭数据作品的复制功能，帮助您有效防止数据泄露。本文为您介绍如何进行作品复制管控。使用限制仅组织...

创建Presto数据源

Presto可以用于实时查询、交互式分析和大数据集的处理。权限说明仅支持拥有新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员系统角色创建数据源。操作步骤在Dataphin首页，单击顶部菜单栏管理...

创建Presto数据源

Presto可以用于实时查询、交互式分析和大数据集的处理。更多信息，请参见 Presto官网。权限说明仅支持拥有新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员系统角色创建数据源。操作步骤在...

创建DuckDB分析只读实例

表明RDS MySQL DuckDB分析只读实例针对大规模数据分析查询任务上表现优秀，显著提升了复杂查询的效率。DuckDB分析只读实例对比ClickHouse ClickHouse的总执行时间为80.01秒，相比之下DuckDB分析只读实例的总执行时间仅为15.31秒，在整体...

基因分析应用

本文介绍基因分析平台中的应用定义，如何在工作空间中创建、编辑和运行...借助统一的流程语言标准，用户可以导入研究社区里公开的WDL流程，也能够使用平台开发者提供的公共应用，极大降低生信分析的门槛，简单高效地完成基因数据分析任务。

选型指南

数据接入能力强中数据准备和建模能力强弱多维数据分析能力强弱可视化页面搭建能力中强非空间数据可视化能力中强空间数据可视化能力弱强低代码交互开发能力弱强可视化资源准备能力无强 AI设计辅助能力无强系统...

数据分析整体趋势

Hadoop也在早期的MapReduce接口基础上增加了SQL接口，SQL语法逐渐成为大数据分析系统的标准配置。随着AWS，Azure，Alibaba，Google等云厂商的出现，云原生分布式数据仓库成为目前数据分析技术的主要解决方案，代表性云服务包括Amazon ...

DataV产品与BI类产品的差异比较

数据接入能力强中数据准备和建模能力强弱多维数据分析能力强弱可视化页面搭建能力中强非空间数据可视化能力中强空间数据可视化能力弱强低代码交互开发能力弱强可视化资源准备能力无强 AI设计辅助能力无强系统...

计算设置

华为 FusionInsight 8.x Hadoop 华为推出的基于Apache开源社区软件进行功能增强的企业级大数据存储、查询和分析的大数据平台。亚信DP5.3 Hadoop 基于开源生态，依托电信级技术能力构建的大数据生产运营一体化支撑平台。星环ArgoDB ...

创建Greenplum数据源

背景信息 Greenplum是一款大数据分析引擎，适用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。权限说明仅支持拥有新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、...

智能分析

在智能分析单元中，按需选择待分析数据（包括上传的文件数据、连接的数据库数据，或项目中生成的结果数据集），通过自然语言输入您的需求，平台将结合 SQL、Python、可视化图表、Markdown文本等多种分析方式自动进行数据分析和报告设计，...

创建Greenplum数据源

背景信息 Greenplum是一款大数据分析引擎，适用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 Greenplum官网。权限说明仅支持拥有新建数据源权限点的自定义全局...

Napatech案例

Lindorm支持海量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与各类大数据平台集成，完成数据的大规模离线分析。基于Lindorm的解决方案，用户在采用到100Gbps+流量产生的大量数据包元数据直接通过...

应用场景

数据报告自动化企业经常需要基于最新数据生成动态的数据分析报告，以监控业务的关键指标（KPI）。DataV-Note通过自然语言交互自动报告生成功能，能够自动将数据汇总并提取关键信息，将其转换为易于理解的图表和报告。这一过程大大减轻了...

计算设置概述

华为 FusionInsight 8.x Hadoop 华为推出的基于Apache开源社区软件进行功能增强的企业级大数据存储、查询和分析的大数据平台。亚信DP5.3 Hadoop 基于开源生态，依托电信级技术能力构建的大数据生产运营一体化支撑平台。星环ArgoDB ...

数据分析

本文介绍DMS数据分析的基本概念、设计理念和主要应用场景。背景信息 DMS数据分析提供典型的数据集、仪表盘和大屏模型，在仪表盘或大屏中提供丰富的可视化图表和组件来展示数据。您可以将数据库中的表或单条SQL查询结果作为数据集，在仪表盘...

Quick引擎概述

“慢”虽然只是一种难以精确定义的体感，但想要解决以上问题，就需要BI产品拥有很强的大数据处理架构和能力，可以横向扩展支持不断增长的数据量和计算任务。Quick引擎架构在数据源和数据集之间，用来处理上层数据作品发送到数据集最终下放...

功能简介

同时，随着数据量剧增，在海量数据中快速发现高质量的洞察报告，需要花费大量时间进行数据分析，从而才有可能提取有效知识。为了将业务人员从重复、无效的分析工作释放出来，并通过智能化的能力帮助业务管理者、运营、业务分析师等人员高效...

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR，它将EMR的大数据处理能力与ECS的弹性灵活优势相结合，使得您能够更加便捷地配置和管理EMR集群，同时支持多种开源和自研大数据组件，适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成，分别...

什么是DataWorks

适配阿里云MaxCompute、E-MapReduce、Hologres、Flink、AnalyticDB、StarRocks、PAI 等数十种大数据和AI计算服务，为数据仓库、数据湖、湖仓一体、Data+AI解决方案提供全链路智能化的数据集成、大数据AI一体化开发、数据分析与主动式数据...

产品优势

缺少安全相关的系统设计，无法保证基因数据的存储、计算和共享等方面的安全要求。基因分析平台的产品优势 Serverless计算强大的无服务计算引擎，用户无需创建和维护集群，完全按需弹性扩展计算资源，能够支持成百上千的样本高通量的进行...

什么是数据湖构建

阿里云数据湖构建（Data Lake ...传统大数据场景适用于数据湖计算和数据湖分析场景，典型案例包括大数据离线分析、实时分析、机器学习以及日志文件分析等。通过DLF提供的统一元数据和存储服务，旨在简化和加速数据湖的构建以及数据治理过程。

StarRocks

集群规模可以灵活伸缩，支持10 PB级别的数据分析。支持MPP框架，并行加速计算。支持多副本，具有弹性容错能力。说明本文部分内容来源于开源StarRocks的什么是StarRocks。StarRocks特性 StarRocks的架构设计融合了MPP数据库，以及分布式...

使用老版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

使用新版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

基本概念

本文为您介绍DataWorks中，数据集成、数据建模、数据开发、数据分析、数据服务等模块开发过程中涉及的相关基本概念。通用概念工作空间工作空间是DataWorks管理任务、成员，分配角色和权限的基本单元。工作空间管理员可以为工作空间加入...

全密态数据库（公测）

从安全视角来看，云数据库能防护安全威胁，其安全性由弱到强可分为以下几个阶梯（阶梯越高，安全性越强）：常规云数据库服务：基于云安全服务，能够拦截绝大部分外部攻击，但仍然需要信任数据库实例内的操作系统、数据库软件、IaaS运维...

规格及选型

案例四：自动驾驶企业用户为自动驾驶领域企业，需要基于车采数据进行地理位置和时序的采集数据分析，要求对JSON格式的友好兼容和时空数据的分析能力，构建业务看板并支持特征工程。建议：使用 AnalyticDB PostgreSQL版存储弹性模式，实例...

全密态数据库（公测）

什么是全密态数据库全密态数据库是数据库与存储实验室与阿里云数据库团队合作的自研产品，以技术为基石，最小化人员、平台管理等不可控因素造成的潜在数据安全隐患，可以有效杜绝云数据库服务（或应用服务等数据拥有者以外的任何人）接触...

全密态数据库（公测）

什么是全密态数据库全密态数据库是数据库与存储实验室与阿里云数据库团队合作的自研产品，以技术为基石，最小化人员、平台管理等不可控因素造成的潜在数据安全隐患，可以有效杜绝云数据库服务（或应用服务等数据拥有者以外的任何人）接触...

Quick Tracking 智能采集分析助手

在大数据与AI时代，丰富、准确的数据对于提升用户体验、促进业务增长至关重要。Quick Tracking 智能采集分析助手基于先进的大模型技术，智能理解页面信息并推荐埋点方案，生成埋点代码并搭建出指标看板。只需简单的需求确认，便可轻松完成...