java开源bi工具-java开源bi工具文档介绍内容-移动阿里云

SmartData（仅对存量用户开放）

JindoSDK：为EMR各种开源计算引擎提供统一的SDK，支持Java、C、C++和Python语言，提供多种访问和API接口，包括HCFS文件系统接口、POSIX接口和Table表格接口。工具集：提供相关的工具集，例如Jindo tool和迁移工具Jindo DistCp。各种...

SmartData 3.1.x版本简介

功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化支持文件的checksum功能，对齐开源HDFS checksum相关接口，支持MD5MD5CRC和COMPOSITE_CRC两种算法...

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR，它将EMR的大数据处理能力与ECS的弹性灵活优势相结合，使得您能够更加便捷地配置和管理EMR集群，同时支持多种开源和自研大数据组件，适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成，分别...

SmartData 3.5.x版本简介

JindoSDK Java使用JindoSDK时，JindoSDK日志输出到Java日志中，以提高可诊断性。新增SDK端使用内存统计日志，可以看到当前JindoSDK使用的内存大小。JindoTable计算优化 JindoTable新增native加速功能，可以对使用Spark、Hive或Presto读取...

org.apache.zeppelin.interpreter.InterpreterException:java.io.IOException:Interpreter process is not running 解决方式：您可以参照以下命令解决该问题。rm-f/usr/lib/zeppelin-current/interpreter/zeppelin-interpreter-shaded-0.10...

Iceberg

类别项目子项目开源Iceberg Iceberg商业版（阿里云）基础功能 ACID 无√历史版本回溯无√Source和Sink集成 Batch√Streaming√高效数据过滤无√数据变更 Schema Evolution 无√Partition Evolution 无√CopyOnWrite更新无√...

SDK列表及示例代码

云消息队列 RabbitMQ 版 SDK（RAM角色跨账号授权场景）如果您是RAM STS角色授权的使用场景，需要通过云消息队列 RabbitMQ 版 SDK收发消息，该SDK只比开源SDK多一个加签依赖。云消息队列 RabbitMQ 版支持的多语言或框架SDK如云消息队列 ...

Java语言迁移

依赖包名称推荐版本 lz4-java 1.4.0 jna 5.2.2 snappy-java 1.1.3 icu4j 68.1 sqlite-jdbc 3.20.0 forest-sqlite-jdbc 3.32.3.3 netty-tcnative 2.0.31 netty-transport-native-epoll 4.1.50 重新构建Java工程 Java工程常用的构建工具如...

安装HBase SDK

Lindorm支持通过HBase Java API和HBase非Java API进行访问。本文介绍如何安装HBase SDK。安装HBase Java SDK 使用阿里云发行的HBase客户端可以使用Lindorm宽表引擎的所有功能，并享受Lindorm带来的优秀体验。安装HBase Java SDK后，您可以...

Trino

Trino（即原PrestoSQL）是一个开源的分布式SQL查询引擎，适用于交互式分析查询。EMR-3.44.0和EMR-5.10.0版本开始改用社区正式名称Trino，之前各版本控制台显示为Presto，内核其实是Trino，使用时请注意区分。基本特性 Trino使用Java语言...

2025-01-20版本

通过Kyuubi Gateway，以兼容开源Kyuubi的方式提交SQL任务。数据目录支持使用RAM用户（子账号）身份访问DLF。支持访问DLF 2.0 Hive Catalog。资源观测支持观测工作空间、队列的资源消耗情况。运行环境 Spark Submit工具支持通过配置参数-...

合作伙伴及开源生态

主要工具：网络通信框架 SOFABolt、生产级高性能 Java 实现 SOFAJRaft、自动化测试框架 SOFAActs、轻量级类隔离容器 SOFAArk。生态项目：高性能可扩展安全网络代理 MOSN、简单可扩展自治事务框架 Seata。同时，SOFAStack 也积极参与了多个...

开源生态

主要工具网络通信框架 SOFABolt、生产级高性能 Java 实现 SOFAJRaft、自动化测试框架 SOFAActs、轻量级类隔离容器 SOFAArk。生态项目高性能可扩展安全网络代理 MOSN、简单可扩展自治事务框架 Seata。同时，SOFAStack 也积极参与了多个...

Flink（VVR）作业配置

EMR-3.27.x及之前版本使用Flink社区开源版本，EMR-3.27.x之后版本使用完全兼容开源Flink的企业版（VVR）。本文介绍如何配置Flink（VVR）类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品，拥有全球统一商业化品牌。VVR提供...

Presto

基本特性 Presto使用Java语言进行开发，具备易用、高性能和强扩展能力等特点，具体如下：完全支持ANSI SQL。支持丰富的数据源，例如，Hive、Hudi、Iceberg、Delta Lake、MySQL和PostgreSQL。支持高级数据结构，具体如下：数组和Map数据 ...

产品形态选型

适用场景 OLAP 多维分析：支持灵活的多维分析与即席查询（Ad Hoc），广泛应用于运营报表、用户画像、指标中台、BI 分析等场景，助力数据驱动决策。实时数据仓库：秒级数据摄入与更新，适用于实时库存监控、订单追踪、用户行为分析、实时风...

连接Kyuubi

使用Beeline连接Kyuubi 您可以用Hive Beeline或者Kyuubi Beeline工具（EMR集群上的工具名称为 kyuubi-beeline）连接Kyuubi Server。以下示例使用Kyuubi Beeline工具连接Kyuubi。普通集群方式一：使用Zookeeper连接Kyuubi服务（推荐）...

MSE Java 探针和其他探针是否兼容

在微服务架构中，通常会引入多个性能监控或治理工具（如APM、链路追踪、安全扫描等），每个工具可能依赖各自的 Java 探针（Agent）。然而，多探针共存时，兼容性问题主要源于字节码注入冲突和资源竞争，本文介绍针对MSE Java 探针与几种...

什么是EMR Serverless Spark

针对数据仓库和BI分析场景，通过SQL编辑器提供低门槛的数据查询与报表开发功能，同时兼容传统数据仓库的使用习惯场景。在人工智能与数据科学领域，集成了支持Python环境管理和交互式机器学习开发的Notebook功能。其设计理念是打造一个统一...

DeltaLake

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

Kafka Manager

Kafka Manager是专为Kafka设计的集群管理工具，提供了WebUI界面，允许用户通过图形化界面便捷地管理Kafka集群。本文为您介绍如何访问Kafka Manager的WebUI，并将集群添加至Kafka Manager的WebUI界面。前提条件已创建选择了Kafka服务的...

和开源产品对比

有开源产品同样可以实现分布式任务调度，本文介绍SchedulerX和开源产品的对比，帮助您更好的了解分布式任务调度和SchedulerX。产品名称定时调度工作流分布式任务白屏化任务治理任务类型报警监控使用成本 Quartz Cron 不支持不支持 ...

什么是分布式任务调度

Java 针对Java应用，依赖Java SDK接入，运行Java应用中的某个方法。更多信息，请参见 Java任务。脚本任务在线编写脚本运行，支持Shell、Python等脚本。更多信息，请参见脚本任务。Golang 针对Go应用依赖Go SDK接入，运行Go应用中的某个...

OSS/OSS-HDFS

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

常见问题

访问UI详情，请参见通过控制台访问开源组件Web界面。是否支持Standalone模式提交Spark作业？不支持。E-MapReduce支持使用Spark on YARN以及Spark on Kubernetes模式提交作业，不支持Standalone和Mesos模式。如何减少Spark2命令行工具的...

自定义Source

2021-07-16 14:44:27,620(conf-file-poller-0)[INFO-org.apache.flume.node.Application.startAllComponents(Application.java:169)]Starting Channel c1 2021-07-16 14:44:27,700(lifecycleSupervisor-1-0)[INFO-org.apache.flume....

通过spark-submit提交任务

本文以ECS连接EMR Serverless Spark为例，介绍如何通过EMR Serverless spark-submit命令行工具进行Spark任务开发。前提条件已安装Java 1.8或以上版本。如果使用RAM用户（子账号）提交Spark任务，需要将RAM用户（子账号）添加至Serverless ...

EMR元数据迁移公告

数据湖元数据DLF是阿里云提供的统一元数据服务，具有高可用、免运维和高性能等优点，兼容Hive Metastore，无缝对接EMR上开源计算引擎，并支持多版本管理和Data Profile功能。另外，DLF还支持数据探索、湖管理和数据权限控制等功能，并与...

接入开源版 SOFA 注册中心

默认情况下，Spring Cloud SOFA 会自动配置该参数以便让应用接入商业版 SOFA 中间件，如果要使用非商业版中间件，需要手动修改此配置。重要修改此配置将导致应用无法连接任何商业版 SOFA中间件，如 DRM、SOFAMQ 等，因此正常情况下请勿...

使用Delta Lake

Delta Lake是一个开源存储框架，旨在数据湖之上构建LakeHouse架构。Delta Lake提供了ACID事务支持、可扩展的元数据处理功能，并能够在现有的数据湖（如OSS、Amazon S3和HDFS）上整合流处理与批处理。此外，Delta Lake还支持多种引擎，如...

签名机制

您可以从阿里云开发工具包（SDK）了解更多阿里云SDK的信息。步骤一：构造规范化请求字符串排序参数。排序规则以首字母顺序排序，排序参数包括公共参数和接口自定义参数，不包括公共请求参数中的 Signature 参数。说明当使用GET方法...

Spark作业配置

E-MapReduce除了支持Scala或者Java类型作业外，还支持Python类型Spark作业。新建一个Python脚本的Spark作业，作业名称为Python-Kmeans，应用参数填写示例如下：master yarn-client-driver-memory 7g-num-executors 10-executor-memory 5g-...

EMR旧版数据开发迁移公告

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。EMR ...

连接并使用实例

引擎类型连接方式参考文档宽表引擎通过Lindorm宽表SQL连接宽表引擎基于Java JDBC接口的应用开发基于Python DB-API的应用开发通过Lindorm-cli连接并使用宽表引擎通过HBase API连接宽表引擎基于HBase Java API的应用开发基于HBase...

JindoData（仅对存量用户开放）

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

为Spark Thrift Server配置并启用Ranger鉴权

511)at java.util.concurrent.FutureTask.run(FutureTask.java:266)at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java...

常见问题

DataFlow集群提供了很多商业化Connector，例如Hologres、SLS、MaxCompute、DataHub、Elasticsearch和ClickHouse等，您在Flink作业中除了可以使用开源的Connector之外，还可以使用这些商业化Connector。下面以Hologres Connector为例，介绍...

Flink Python参考

背景信息 DataFlow集群的Flink Python API完全兼容开源的Flink版本，关于Flink Python API的详细信息，请参见 Python API。使用Python依赖通过以下场景为您介绍如何使用Python依赖：使用自定义的Python虚拟环境使用第三方Python包使用...

EMR Spark功能增强

阿里云E-MapReduce产品构建于阿里云云服务器ECS上，基于开源的Apache Hadoop和Apache Spark，做了大量优化。本文为您介绍E-MapReduce（简称EMR）Spark相对开源增强的功能。背景信息阿里云EMR 100%采用社区开源组件，随开源版本升级迭代，...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...