apache开源代码-apache开源代码文档介绍内容-移动阿里云

基础使用

写数据环境配置 EMR-3.32.0以及后续版本中，已经将Hudi相关依赖集成到各个开源组件中，包括Spark、Hive和Presto，因此运行时不需要引入额外的Hudi依赖，只需要在pom文件中添加Hudi依赖即可。不同的EMR版本使用的Hudi版本不同，详细信息请...

flink import org.apache.flink.streaming.api.functions.source.SourceFunction import org.apache.flink.table.api.TableEnvironment import org.apache.flink.streaming.api.TimeCharacteristic import org.apache.flink.streaming.api....

自定义函数（UDF）

groupId>org.apache.hive</groupId><artifactId>hive-exec</artifactId><version>2.3.7</version><exclusions><exclusion><groupId>org.pentaho</groupId><artifactId>*</artifactId></exclusion></exclusions></dependency>...

Celeborn

阿里云Spark已完成Celeborn适配，开源Spark 3.5版本已完成Celeborn适配。spark.celeborn.shuffle.writer Celeborn的wirter支持的模式：hash（默认值）：在Partition并发度过大的情况下会使用较多的内存。sort：使用固定大小内存，在...

基础使用

catalog org.apache.spark.sql.delta.catalog.DeltaCatalog 常用命令创建表 CREATE TABLE delta_table(id INT)USING delta;插入数据 INSERT INTO delta_table VALUES 0,1,2,3,4;覆盖写数据 INSERT OVERWRITE TABLE delta_table VALUES 5,6...

使用E-MapReduce进行MySQL Binlog日志准实时传输

package com.aliyun.emr.example import org.apache.spark.SparkConf import org.apache.spark.storage.StorageLevel import org.apache.spark.streaming.aliyun.logservice.LoghubUtils import org.apache.spark.streaming.{Milliseconds,...

Hive连接方式

jdbc</artifactId><version>2.3.9</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>2.8.5</version></dependency>编写代码，连接HiveServer2并操作Hive表数据。...

Flink Table Store与Spark集成

spark-shell 在Spark CLI中运行以下Scala代码，查询指定目录下存储的Flink Table Store表。val dataset=spark.read.format("tablestore").load("oss:/oss-bucket/warehouse/test_db.db/test_tbl")dataset.createOrReplaceTempView("test_...

漏洞公告|Solr升级修复漏洞

2024年02月08日，Apache Solr官方发布了四个安全漏洞。这些漏洞可能会影响不同版本的Solr，并导致多种安全风险。本文为您介绍这些漏洞的影响范围及相应的修复方案。漏洞影响受漏洞影响的EMR产品版本：EMR 5.x系列：EMR-5.16.0及之前版本。...

提交Spark作业

apiVersion:"sparkoperator.k8s.io/v1beta2"kind:SparkApplication metadata:name:spark-pi-simple spec:type:Scala sparkVersion:3.2.1 mainClass:org.apache.spark.examples.SparkPi mainApplicationFile:"local:/opt/spark/examples/...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过EMR Serverless StarRocks灵活的创建和管理StarRocks实例以及数据。StarRocks作为一款兼容MySQL协议的OLAP分析引擎，提供了极致的性能和丰富的OLAP场景模型，...

Spark流式写入Iceberg

val sparkConf=new SparkConf()sparkConf.set("spark.sql.extensions","org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions")sparkConf.set("spark.sql.catalog.dlf_catalog","org.apache.iceberg.spark.SparkCatalog")...

查询节点实例启动器日志

运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String 是 DescribeFlowNodeInstanceLauncherLog 系统规定参数。取值：DescribeFlowNodeInstanceLauncherLog。NodeInstanceId ...

产品优势

本文从核心功能、性能、成本等方面，将云原生多模数据库 Lindorm 与开源HBase、开源Cassandra、OpenTSDB、开源ElasticSearch、开源Solr和开源HDFS进行了对比，帮助您进一步了解Lindorm与其他数据库产品的区别以及Lindorm在各方面的优势。...

Flink Python参考

背景信息 DataFlow集群的Flink Python API完全兼容开源的Flink版本，关于Flink Python API的详细信息，请参见 Python API。使用Python依赖通过以下场景为您介绍如何使用Python依赖：使用自定义的Python虚拟环境使用第三方Python包使用...

同步EMR Kafka数据至HBase

default-agent.sources=source1 default-agent.sinks=k1 default-agent.channels=c1 default-agent.sources.source1.type=org.apache.flume.source.kafka.KafkaSource default-agent.sources.source1.channels=c1 default-agent.sources....

使用Flume写入JindoFS

Apache Flume是一个分布式、可靠和高可用的系统，用于从大量不同的数据源有效地收集、聚合和移动大量日志数据，进行集中式的数据存储。Flume的核心是Agent，Agent中包含Source、Channel和Sink。本文为您介绍如何使用HDFS Sink写入数据至...

常见问题

您可以通过隧道的方式访问Kudu的WebUI，详情请参见通过SSH隧道方式访问开源组件Web UI。Kudu客户端连接报错NonRecoverableException 报错详情报错详细信息，如下所示。org.apache.kudu.client.NonRecoverableException:Could not connect...

自建Apache RocketMQ触发器

Apache RocketMQ作为事件源通过事件总线EventBridge 与函数计算集成后，通过Apache RocketMQ触发器能够触发关联函数执行，通过函数可以对发布到Apache RocketMQ的消息进行自定义处理。本文介绍如何在函数计算控制台创建Apache ...

自定义Sink

2021-07-16 14:49:29,024(conf-file-poller-0)[INFO-org.apache.flume.node.Application.startAllComponents(Application.java:169)]Starting Channel c1 2021-07-16 14:49:29,024(conf-file-poller-0)[INFO-org.apache.flume.node....

自建Apache RocketMQ触发器

Apache RocketMQ作为事件源通过事件总线EventBridge 与函数计算集成后，通过Apache RocketMQ触发器能够触发关联函数执行，通过函数可以对发布到Apache RocketMQ的消息进行自定义处理。本文介绍如何在函数计算控制台创建Apache ...

Spark访问Table Store

spark-sql-jars/opt/apps/SPARK-EXTENSION/spark-extension-current/spark3-emrsdk/*\-hiveconf accessKeyId=$ALIBABA_CLOUD_ACCESS_KEY_ID \-hiveconf accessKeySecret=$ALIBABA_CLOUD_ACCESS_KEY_SECRET 说明运行代码示例前必须先配置...

Spark批式读写Iceberg

由于EMR集群的Iceberg软件包与开源依赖包存在一定差异，例如EMR Iceberg默认集成了DLF Catalog，所以建议您在本地使用provided方式引入开源Iceberg依赖进行代码编译，打包放到集群上运行时使用集群环境中的依赖。配置Catalog。使用Spark ...

开源对比

使用习惯云消息队列 Kafka 版在客户端协议层面和开源Apache Kafka完全一致，因此基于开源版本开发的应用和代码可以无缝迁移到云消息队列 Kafka 版。在通信协议完全兼容的前提下，为了提供更丰富的消息管控和治理功能，云消息队列 Kafka ...

产品优势

您基于开源框架编写的算法代码或模型代码，几乎无需进行修改。AI分布式训练通信优化库AIACC-ACSpeed AIACC-ACSpeed（AIACC 2.0-AIACC Communication Speeding）作为阿里云自研的AI训练加速器，专注于分布式训练场景的通信优化功能，在训练...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

Apache Log4j2远程代码执行漏洞（CVE-2021-44228）

近日，阿里云计算有限公司发现阿帕奇Log4j2组件存在远程代码执行漏洞，并将漏洞情况告知阿帕奇软件基金会。更多有关漏洞的详细信息，请参见【漏洞通告】Apache Log4j2 远程代码执行漏洞（CVE-2021-44228/CVE-2021-45046）。您可以接入ARMS...

通义千问开源系列大语言模型

预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。通义千问的开源模型均可在ModelScope上直接获取，灵积平台为这些开源模型的对齐版本提供了可直接使用的API服务，包括qwen-1.8b-chat，qwen-7b-chat，qwen-14b-chat和...

授权信息

开源大数据平台 E-MapReduce（EMR）的RAM代码（RamCode）为 emr,emr-apm-server,ecm,emr-serverless-spark,dls，支持的授权粒度为 OPERATION。权限策略通用结构权限策略支持JSON格式，其通用结构如下：{"Version":"1","Statement":[{...

产品优势

优势说明开箱即用 100%兼容开源社区产品Nacos、ZooKeeper和Eureka，业务代码无需任何改造，修改集群注册中心地址后，可快速使用。注册配置中心全托管提供全托管集群，您无需关注引擎的资源购买、监控、运维和容灾问题，只需专注于业务...

Lindorm for Cassandra应用实践

开源标准 CQL 兼容CQL（大部分情况下无需改造代码）一致性可调一致性，需定期repair。可调一致性（无需repair数据）服务模式自建集群托管或者Serverless可选可靠性无SLA保障，开源软件BUG需要自行修复。SLA保障，并具备主备双活、备份...

产品优势

阿里云E-MapReduce（简称EMR）为您提供相对方便可控的企业级开源大数据服务。您可以快速搭建开源大数据服务，例如Hadoop、Spark、Flink、Kafka和HBase服务。稳定可靠的开源组件 100%采用社区开源组件，随开源版本升级迭代，详情请参见版本...

什么是EMR on ECS

100%采用社区开源组件，适配并优化开源组件，性能远高于开源版本。基于时间的弹性伸缩能力，抢占式实例可进一步降低成本。解耦了计算与存储之间的绑定关系，实现了资源的弹性利用。分钟级别创建和扩容集群，无需手动部署和启动服务。产品...

大语言模型

模型简介 Qwen1.5 Qwen1.5是Qwen开源系列的下一个版本。与之前的版本相比，Qwen1.5显著提升了聊天模型与人类偏好的一致性，改善了它们的多语言能力，并具备了强大的链接外部系统能力。灵积上提供API服务的是新版本qwen模型的chat版本，在...

什么是EMR Serverless Milvus

阿里云向量检索Milvus版是一款Serverless全托管服务，确保了与开源Milvus的完全兼容性，并支持无缝迁移。它在开源版本的基础上增强了可扩展性，能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控...

OpenLDAP

OpenLDAP是LDAP协议（Lightweight Directory Access Protocol）的开源实现，在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中，Knox服务默认与OpenLDAP服务对接。当您通过EMR控制台的访问链接与端口功能访问...

通过开源Kafka客户端写入Lindorm流引擎数据

Lindorm流引擎完全兼容开源Kafka API，您可以通过Kafka API编写程序写入Lindorm流引擎数据，也可以通过开源的三方工具采集并写入Lindorm流引擎数据，例如FluentD、Debezium等。本文介绍通过开源Kafka客户端连接Lindorm流引擎并写入Lindorm...

通过开源Kafka客户端写入Lindorm消息引擎数据

Lindorm消息引擎完全兼容开源Kafka API，您可以通过Kafka API编写程序向Lindorm消息引擎写入数据，也可以通过开源的三方工具采集并写入Lindorm消息引擎数据，例如FluentD、Debezium等。本文介绍通过开源Kafka客户端连接Lindorm消息引擎并...

三方开源大语言模型

本文主要介绍阿里云百炼平台引入上架的三方开源大语言模型基本信息，计费情况等调用必备基础信息。基本信息重要三方开源大模型API调用需申请后开通体验，请点击“立即申请”，申请通过后才能调用。模型服务模型名称模型描述特征 Llama...