开源数据统计软件-开源数据统计软件文档介绍内容-移动阿里云

综合：网站用户画像分析

开源全托管服务EMR Serverless StarRocks 开源大数据平台 E-MapReduce 开源全托管服务EMR Serverless Spark 数据中台一站式大数据开发治理DataWorks 在本案例中，DataWorks作为数据中台，用于对原始数据进行同步、加工、质量监控、数据...

开源大数据平台E-MapReduce系统权限策略参考

本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权RAM身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

OSS/OSS-HDFS

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

JindoData（仅对存量用户开放）

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

spark-sql>CREATE TABLE loghub_table_intput_test(content string)>USING loghub>OPTIONS>(.)离线处理SLS数据，统计截止当前数据条数。spark-sql>CREATE SCAN loghub_table_intput_test_batch>ON loghub_table_intput_test>USING BATCH;...

使用独立的Trino集群

背景信息在使用开源大数据平台E-MapReduce控制台时，您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务，或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点：Trino独享集群资源，受其他组件干扰少。支持弹性...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

开发入门

本文介绍Spark Streaming如何消费Log Service中的日志数据和统计日志条数。Spark接入Log Service 方法一：Receiver Based DStream val logServiceProject=args(0)/LogService中的project名。val logStoreName=args(1)/LogService中的...

Lindorm for Cassandra应用实践

可调一致性（无需repair数据）服务模式自建集群托管或者Serverless可选可靠性无SLA保障，开源软件BUG需要自行修复。SLA保障，并具备主备双活、备份、异地容灾等能力。冷热分离不支持透明冷热分离降低成本全文检索不支持兼容CQL...

EMR Studio（已不支持新购）

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

数据上云工具

Fluentd（DataHub通道系列）Fluentd是一个开源的软件，用来收集各种源头日志（包括Application Log、Sys Log及Access Log），允许您选择插件对日志数据进行过滤，并存储到不同的数据处理端（包括MySQL、Oracle、MongoDB、Hadoop、Treasure ...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 ...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。使用限制仅支持企业版及以上版本。...

EMR与自建Hadoop集群对比优势

与自建Hadoop集群相比，开源大数据开发平台EMR提供弹性资源管理和自动化运维，降低运维复杂度，通过用户管理、数据加密和权限管理等为数据安全保驾护航，同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态，便于快速搭建大数据处理和...

SmartData常见问题

JindoFS是阿里云开源大数据E-MapReduce产品提供的一套Hadoop文件系统，主要对Hadoop和Spark大数据生态系统使用阿里云OSS提供多层次的封装支持和优化。基础功能提供适配OSS和支持访问，您可以直接使用JindoFS SDK；标准功能针对OSS提供分布...

E-MapReduce支持倚天云服务器

阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势，以及在E-Mapreduce上倚天云服务器的...

Top Key统计

大Key和热Key的统计排名机制为避免对数据库造成额外的资源占用，本功能仅会统计客户端操作（读、写）过的Key，并仅保留和展示每种Key类型的Top数量，而不会实时扫描数据库中的所有Key。同时，在实例重启后或HA切换后，原先统计的TopKey...

Top Key统计

大Key和热Key的统计排名机制为避免对数据库造成额外的资源占用，本功能仅会统计客户端操作（读、写）过的Key，并仅保留和展示每种Key类型的Top数量，而不会实时扫描数据库中的所有Key。同时，在实例重启后或HA切换后，原先统计的TopKey...

功能特性

EMR on ECS 功能集功能功能描述参考文档集群管理创建集群您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。创建集群释放集群在完成EMR集群任务后及时释放集群，可以释放资源...

扩容集群

EMR Serverless StarRocks不仅无缝兼容开源StarRocks，并且具备自动升级软件版本的功能，可省去手动管理版本的繁琐与风险。迁移方案详情，请参见迁移StarRocks数据至EMR Serverless StarRocks。操作步骤重要集群扩容操作不会重启存量...

Trino

支持丰富的数据源：Hive Cassandra Kafka MongoDB MySQL PostgreSQL SQL Server Redis Redshift 本地文件支持高级数据结构，具体如下：数组和Map数据 JSON数据 GIS数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器 ...

产品形态选型

阿里云开放的大数据平台 E‑MapReduce(EMR)提供了多种产品形态，以满足不同用户的业务需求。根据部署方式可分为 EMR Serverless Spark、EMR Serverless StarRocks、EMR on ECS 和 EMR on ACK。为帮助用户选择合适的产品，以下整理了各产品...

Presto

支持高级数据结构，具体如下：数组和Map数据 JSON数据 GIS（Geographic Information System）数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器自定义数据类型自定义SQL函数流水线：基于Pipeline处理模型数据在处理...

时延洞察

在排查云数据库 Tair（兼容 Redis）数据库实例的故障和性能降低的原因时，您可以通过时延洞察功能，对数据库所有命令以及自定义特殊事件进行时延统计，得到精确到微秒级别的延迟时间，从事件、时间、时延三个维度对实例进行分析，快速定位...

Doris

统一数仓构建：一个平台满足统一的数据仓库建设需求，简化繁琐的大数据软件栈。基于Doris构建的统一数仓，替换了原来由Spark、Hive、Kudu、Hbase、Phoenix组成的旧架构，架构大大简化。数据湖联邦查询：通过外表的方式联邦分析位于Hive、...

Spark对接SMQ

本文介绍如何通过Spark Streaming消费轻量消息队列（原 MNS）SMQ（Simple Message Queue(formerly MNS)）中的数据，并统计每个Batch内的单词个数。Spark接入 SMQ 示例代码如下。val conf=new SparkConf().setAppName("Test MNS Streaming...

Celeborn介绍

Apache Celeborn是阿里云开源的中间数据服务，旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎，支持Spark、Flink、MapReduce(MR)和 Tez，并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...

SmartData（仅对存量用户开放）

SmartData是E-MapReduce（简称EMR）产品的核心自研组件，为EMR各个计算引擎提供统一的存储优化、缓存优化、计算加速优化和多个存储功能扩展，涵盖数据访问、数据治理和数据安全。SmartData组件在EMR产品中的位置如下所示。SmartData组件...

EMR Spark功能增强

阿里云E-MapReduce产品构建于阿里云云服务器ECS上，基于开源的Apache Hadoop和Apache Spark，做了大量优化。本文为您介绍E-MapReduce（简称EMR）Spark相对开源增强的功能。背景信息阿里云EMR 100%采用社区开源组件，随开源版本升级迭代，...

Query Profile诊断建议

还有一些情况是缺少统计信息、或者数据变更后统计信息过期，导致优化器选择了错误的计划。建议从以下方面进行排查：优化Join条件设置：检查Join条件是否缺失、是否符合业务逻辑，增添必要条件以精确匹配，避免Join结果膨胀。优化多表Join...

Tair（企业版）与Redis开源版特性对比

秒级命令级命令级命令级秒级秒级秒级安全性开启TLS加密 ✔️ ✔️ ❌ ❌ ✔️ ✔️ ✔️ 透明数据加密TDE ✔️ ❌ ❌ ❌ ❌ ❌ ❌ IP白名单 ✔️ ✔️ ✔️ ✔️ ✔️ ✔️ ✔️ 性能分析 Top Key统计 ✔️ ✔️ ❌ ❌ ✔️ ✔️ ...

Kafka Manager

说明当选择了Kafka服务，系统将默认安装Kafka Manager软件服务，并开启Kafka Manager的认证功能。注意事项使用Kafka Manager进行partition reassign功能时，当前版本的Kafka Manager是没有提供限流功能的。如果需要限流，您可以通过 ...

管理日志

使用限制本文操作仅适用于数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）和数据湖（Hadoop）场景的集群。支持日志投递的服务有hdfs、yarn、yarn_application、hive、spark、jindodata、tez、...

HDFS Web UI介绍

文件、目录和数据块的数量，Active NameNode和Standby NameNode的统计有一定差异，属于正常现象。在这种情况下，应以Active NameNode提供的数据为标准。NameNode Journal Status NameNode在高可用模式下，需要重点关注，其中：Active ...

示例项目使用说明

MapReduce WordCount：单词统计 Hive sample.hive：表的简单查询 Pig sample.pig：Pig处理OSS数据实例 Spark SparkPi：计算Pi SparkWordCount：单词统计 LinearRegression：线性回归 OSSSample：OSS使用示例 MaxComputeSample：MaxCompute...

概述

Spark on MaxCompute是MaxCompute提供的兼容开源Spark的计算服务。它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持您以熟悉的开发使用方式提交运行Spark作业，满足更丰富的数据处理分析需求。使用限制 Spark on ...

在EMR集群运行TPC-DS Benchmark

TPC-DS是大数据领域最为知名的Benchmark标准。阿里云E-MapReduce多次刷新TPC-DS官方最好成绩，并且是第一个通过认证的可运行TPC-DS 100 TB的大数据系统。本文介绍如何在EMR集群完整运行TPC-DS的99个SQL，并得到最佳的性能体验。背景信息 ...

基础使用

写数据环境配置 EMR-3.32.0以及后续版本中，已经将Hudi相关依赖集成到各个开源组件中，包括Spark、Hive和Presto，因此运行时不需要引入额外的Hudi依赖，只需要在pom文件中添加Hudi依赖即可。不同的EMR版本使用的Hudi版本不同，详细信息请...

Kafka元数据管理

查看统计分析进入Kafka数据管理页。登录阿里云E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域和资源组。单击上方的元数据管理页签。在左侧导航栏，单击 Kafka数据管理。在 Kafka数据管理页面，单击统计分析页签。在上方...

Hive使用扩展记录数据血缘和访问历史

通过EMR-HOOK，您可以利用数据湖构建（DLF）的数据概况，以统计表和分区的访问次数。同时，您也可以使用DataWorks来管理数据血缘。本文将为您介绍如何配置Hive服务的EMR-HOOK。前提条件已创建DataLake或自定义集群，且选择了Hive服务，...