java开源bi工具

_相关内容

SmartData(仅对存量用户开放)

JindoSDK:为EMR各种开源计算引擎提供统一的SDK,支持Java、C、C++和Python语言,提供多种访问和API接口,包括HCFS文件系统接口、POSIX接口和Table表格接口。工具集:提供相关的工具集,例如Jindo tool和迁移工具Jindo DistCp。各种...

SmartData 3.1.x版本简介

功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化 支持文件的checksum功能,对齐开源HDFS checksum相关接口,支持MD5MD5CRC和COMPOSITE_CRC两种算法...

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR,它将EMR的大数据处理能力与ECS的弹性灵活优势相结合,使得您能够更加便捷地配置和管理EMR集群,同时支持多种开源和自研大数据组件,适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成,分别...

SmartData 3.5.x版本简介

JindoSDK Java使用JindoSDK时,JindoSDK日志输出到Java日志中,以提高可诊断性。新增SDK端使用内存统计日志,可以看到当前JindoSDK使用的内存大小。JindoTable计算优化 JindoTable新增native加速功能,可以对使用Spark、Hive或Presto读取...

Zeppelin常见问题

org.apache.zeppelin.interpreter.InterpreterException:java.io.IOException:Interpreter process is not running 解决方式:您可以参照以下命令解决该问题。rm-f/usr/lib/zeppelin-current/interpreter/zeppelin-interpreter-shaded-0.10...

Iceberg

类别 项目 子项目 开源Iceberg Iceberg商业版(阿里云)基础功能 ACID 无√历史版本回溯 无√Source和Sink集成 Batch√Streaming√高效数据过滤 无√数据变更 Schema Evolution 无√Partition Evolution 无√CopyOnWrite更新 无√...

SDK列表及示例代码

云消息队列 RabbitMQ 版 SDK(RAM角色跨账号授权场景)如果您是RAM STS角色授权的使用场景,需要通过 云消息队列 RabbitMQ 版 SDK收发消息,该SDK只比开源SDK多一个加签依赖。云消息队列 RabbitMQ 版 支持的多语言或框架SDK如 云消息队列 ...

Java语言迁移

依赖包名称 推荐版本 lz4-java 1.4.0 jna 5.2.2 snappy-java 1.1.3 icu4j 68.1 sqlite-jdbc 3.20.0 forest-sqlite-jdbc 3.32.3.3 netty-tcnative 2.0.31 netty-transport-native-epoll 4.1.50 重新构建Java工程 Java工程常用的构建工具如...

安装HBase SDK

Lindorm支持通过HBase Java API和HBase非Java API进行访问。本文介绍如何安装HBase SDK。安装HBase Java SDK 使用阿里云发行的HBase客户端可以使用Lindorm宽表引擎的所有功能,并享受Lindorm带来的优秀体验。安装HBase Java SDK后,您可以...

Trino

Trino(即原PrestoSQL)是一个开源的分布式SQL查询引擎,适用于交互式分析查询。EMR-3.44.0和EMR-5.10.0版本开始改用社区正式名称Trino,之前各版本控制台显示为Presto,内核其实是Trino,使用时请注意区分。基本特性 Trino使用Java语言...

2025-01-20版本

通过Kyuubi Gateway,以兼容开源Kyuubi的方式提交SQL任务。数据目录 支持使用RAM用户(子账号)身份访问DLF。支持访问DLF 2.0 Hive Catalog。资源观测 支持观测工作空间、队列的资源消耗情况。运行环境 Spark Submit工具支持通过配置参数-...

合作伙伴及开源生态

主要工具:网络通信框架 SOFABolt、生产级高性能 Java 实现 SOFAJRaft、自动化测试框架 SOFAActs、轻量级类隔离容器 SOFAArk。生态项目:高性能可扩展安全网络代理 MOSN、简单可扩展自治事务框架 Seata。同时,SOFAStack 也积极参与了多个...

开源生态

主要工具 网络通信框架 SOFABolt、生产级高性能 Java 实现 SOFAJRaft、自动化测试框架 SOFAActs、轻量级类隔离容器 SOFAArk。生态项目 高性能可扩展安全网络代理 MOSN、简单可扩展自治事务框架 Seata。同时,SOFAStack 也积极参与了多个...

Flink(VVR)作业配置

EMR-3.27.x及之前版本使用Flink社区开源版本,EMR-3.27.x之后版本使用完全兼容开源Flink的企业版(VVR)。本文介绍如何配置Flink(VVR)类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品,拥有全球统一商业化品牌。VVR提供...

Presto

基本特性 Presto使用Java语言进行开发,具备易用、高性能和强扩展能力等特点,具体如下:完全支持ANSI SQL。支持丰富的数据源,例如,Hive、Hudi、Iceberg、Delta Lake、MySQL和PostgreSQL。支持高级数据结构,具体如下:数组和Map数据 ...

产品形态选型

适用场景 OLAP 多维分析:支持灵活的多维分析与即席查询(Ad Hoc),广泛应用于运营报表、用户画像、指标中台、BI 分析等场景,助力数据驱动决策。实时数据仓库:秒级数据摄入与更新,适用于实时库存监控、订单追踪、用户行为分析、实时风...

连接Kyuubi

使用Beeline连接Kyuubi 您可以用Hive Beeline或者Kyuubi Beeline工具(EMR集群上的工具名称为 kyuubi-beeline)连接Kyuubi Server。以下示例使用Kyuubi Beeline工具连接Kyuubi。普通集群 方式一:使用Zookeeper连接Kyuubi服务(推荐)...

MSE Java 探针和其他探针是否兼容

在微服务架构中,通常会引入多个性能监控或治理工具(如APM、链路追踪、安全扫描等),每个工具可能依赖各自的 Java 探针(Agent)。然而,多探针共存时,兼容性问题主要源于字节码注入冲突和资源竞争,本文介绍针对MSE Java 探针与几种...

什么是EMR Serverless Spark

针对数据仓库和BI分析场景,通过SQL编辑器提供低门槛的数据查询与报表开发功能,同时兼容传统数据仓库的使用习惯场景。在人工智能与数据科学领域,集成了支持Python环境管理和交互式机器学习开发的Notebook功能。其设计理念是打造一个统一...

DeltaLake

Delta Lake以数据为中心,围绕数据流走向(数据从流入数据湖、数据组织管理和数据查询到流出数据湖)推出了一系列功能特性,协助您搭配第三方上下游工具,搭建快捷、易用和安全的数据湖。背景信息 通常的数据湖方案是选取大数据存储引擎...

Kafka Manager

Kafka Manager是专为Kafka设计的集群管理工具,提供了WebUI界面,允许用户通过图形化界面便捷地管理Kafka集群。本文为您介绍如何访问Kafka Manager的WebUI,并将集群添加至Kafka Manager的WebUI界面。前提条件 已创建选择了Kafka服务的...

开源产品对比

开源产品同样可以实现分布式任务调度,本文介绍SchedulerX和开源产品的对比,帮助您更好的了解分布式任务调度和SchedulerX。产品名称 定时调度 工作流 分布式任务 白屏化任务治理 任务类型 报警监控 使用成本 Quartz Cron 不支持 不支持 ...

什么是分布式任务调度

Java 针对Java应用,依赖Java SDK接入,运行Java应用中的某个方法。更多信息,请参见 Java任务。脚本任务 在线编写脚本运行,支持Shell、Python等脚本。更多信息,请参见 脚本任务。Golang 针对Go应用依赖Go SDK接入,运行Go应用中的某个...

OSS/OSS-HDFS

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括 JindoFS 存储系统(原JindoFS Block模式)...

常见问题

访问UI详情,请参见 通过控制台访问开源组件Web界面。是否支持Standalone模式提交Spark作业?不支持。E-MapReduce支持使用Spark on YARN以及Spark on Kubernetes模式提交作业,不支持Standalone和Mesos模式。如何减少Spark2命令行工具的...

自定义Source

2021-07-16 14:44:27,620(conf-file-poller-0)[INFO-org.apache.flume.node.Application.startAllComponents(Application.java:169)]Starting Channel c1 2021-07-16 14:44:27,700(lifecycleSupervisor-1-0)[INFO-org.apache.flume....

通过spark-submit提交任务

本文以ECS连接EMR Serverless Spark为例,介绍如何通过EMR Serverless spark-submit命令行工具进行Spark任务开发。前提条件 已安装Java 1.8或以上版本。如果使用RAM用户(子账号)提交Spark任务,需要将RAM用户(子账号)添加至Serverless ...

EMR元数据迁移公告

数据湖元数据DLF是阿里云提供的统一元数据服务,具有高可用、免运维和高性能等优点,兼容Hive Metastore,无缝对接EMR上开源计算引擎,并支持多版本管理和Data Profile功能。另外,DLF还支持数据探索、湖管理和数据权限控制等功能,并与...

接入开源版 SOFA 注册中心

默认情况下,Spring Cloud SOFA 会自动配置该参数以便让应用接入商业版 SOFA 中间件,如果要使用非商业版中间件,需要手动修改此配置。重要 修改此配置将导致应用无法连接任何商业版 SOFA中间件,如 DRM、SOFAMQ 等,因此正常情况下请勿...

使用Delta Lake

Delta Lake是一个开源存储框架,旨在数据湖之上构建LakeHouse架构。Delta Lake提供了ACID事务支持、可扩展的元数据处理功能,并能够在现有的数据湖(如OSS、Amazon S3和HDFS)上整合流处理与批处理。此外,Delta Lake还支持多种引擎,如...

签名机制

您可以从 阿里云开发工具包(SDK)了解更多阿里云SDK的信息。步骤一:构造规范化请求字符串 排序参数。排序规则以首字母顺序排序,排序参数包括 公共参数 和接口自定义参数,不包括公共请求参数中的 Signature 参数。说明 当使用GET方法...

Spark作业配置

E-MapReduce除了支持Scala或者Java类型作业外,还支持Python类型Spark作业。新建一个Python脚本的Spark作业,作业名称为Python-Kmeans,应用参数填写示例如下:master yarn-client-driver-memory 7g-num-executors 10-executor-memory 5g-...

EMR旧版数据开发迁移公告

EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行提供保障。EMR ...

连接并使用实例

引擎类型 连接方式 参考文档 宽表引擎 通过Lindorm宽表SQL连接宽表引擎 基于Java JDBC接口的应用开发 基于Python DB-API的应用开发 通过Lindorm-cli连接并使用宽表引擎 通过HBase API连接宽表引擎 基于HBase Java API的应用开发 基于HBase...

JindoData(仅对存量用户开放)

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括JindoFS存储系统(原JindoFS Block模式)、...

为Spark Thrift Server配置并启用Ranger鉴权

511)at java.util.concurrent.FutureTask.run(FutureTask.java:266)at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java...

常见问题

DataFlow集群提供了很多商业化Connector,例如Hologres、SLS、MaxCompute、DataHub、Elasticsearch和ClickHouse等,您在Flink作业中除了可以使用开源的Connector之外,还可以使用这些商业化Connector。下面以Hologres Connector为例,介绍...

Flink Python参考

背景信息 DataFlow集群的Flink Python API完全兼容开源的Flink版本,关于Flink Python API的详细信息,请参见 Python API。使用Python依赖 通过以下场景为您介绍如何使用Python依赖:使用自定义的Python虚拟环境 使用第三方Python包 使用...

EMR Spark功能增强

阿里云E-MapReduce产品构建于阿里云云服务器ECS上,基于开源的Apache Hadoop和Apache Spark,做了大量优化。本文为您介绍E-MapReduce(简称EMR)Spark相对开源增强的功能。背景信息 阿里云EMR 100%采用社区开源组件,随开源版本升级迭代,...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统,E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS,其中OssFileSystem和JindoFS都是云上存储的解决方案,下表为这三种存储系统和开源OSS各自的特点。特点 开源OSS E-...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用