scala使用-scala使用文档介绍内容-移动阿里云

Flink

示例2：使用Scala写的Streaming WordCount。PyFlink(%flink.pyflink)PyFlink是Flink on Zeppelin上Python语言的入口，Flink Interpreter内部会创建Python Shell。Python Shell内部会创建Flink的各种Environment，但是PyFlink里的各种...

使用JDBC Connector导入

当前版本的flink-connector-jdbc，使用Scala API调用JdbcSink时会出现lambda函数的序列化问题。我们只能采用手动实现interface的方式来传入相关JDBC Statement build函数（class CkSinkBuilder）。class CkSinkBuilder extends ...

Spark on MaxCompute访问Phoenix数据

使用Scala编程语言编写Spark代码逻辑进行测试。在IDEA中按照对应的Pom文件配置本地开发环境。您可以先使用公网连接地址进行测试，待代码逻辑验证成功后再调整代码示例中 spark.hadoop.odps.end.point 参数内容。公网连接地址请通过登录 ...

Spark Shell和RDD基础操作

Spark既可以使用Scala，也可以使用Python。您可以按照以下操作步骤来启动Spark Shell。使用SSH方式登录集群的Master节点，详情请参见登录集群。执行以下命令，启动Spark Shell。spark-shell 在Spark Shell中，已经在名为sc的变量中为您...

自定义标量函数（UDSF）

仅支持开源Scala V2.11版本，如果Python作业中依赖第三方JAR包，请确保使用Scala V2.11对应的JAR包依赖。UDSF开发说明 Flink为您提供了Python自定义函数示例，便于您快速开发自定义函数。Flink Python自定义函数示例中包含了Python UDSF、...

安装Kafka单机版

背景信息 Apache Kafka是一个开源流处理平台，使用Scala和Java语言编写。Kafka作为一种高吞吐量的分布式发布-订阅消息系统，可以处理消费者模式网站中的所有动作流数据。模板示例 Kafka 单机版（已有VPC）在已有专有网络、交换机和安全组等...

自定义表值函数（UDTF）

仅支持开源Scala V2.11版本，如果Python作业中依赖第三方JAR包，请确保使用Scala V2.11对应的JAR包依赖。UDTF开发说明 Flink为您提供了Python UDX示例，便于您快速开发UDX。Flink Python UDX示例中包含了Python UDF、Python UDAF和Python ...

自定义聚合函数（UDAF）

仅支持开源Scala V2.11版本，如果Python作业中依赖第三方JAR包，请确保使用Scala V2.11对应的JAR包依赖。UDAF开发说明 Flink为您提供了Python UDX示例，便于您快速开发UDX。Flink Python UDX示例中包含了Python UDF、Python UDAF和Python ...

安装Kafka集群版

背景信息 Apache Kafka是一个开源流处理平台，使用Scala和Java语言编写。Kafka作为一种高吞吐量的分布式发布订阅消息系统，可以处理消费者模式网站中的所有动作流数据。模板示例 Kafka 集群版-已有专有网络VPC 在已有专有网络、交换机和...

Python作业开发

如果Python作业中依赖第三方JAR包，请确保使用Scala版本对应的JAR包依赖。作业开发开发参考您可以参见以下文档在本地完成Flink业务代码开发，开发完成后您需要将其上传到Flink开发控制台，并部署上线作业。Apache Flink V1.20业务代码...

使用Scala编程语言，按如下代码示例编写Spark代码逻辑。object App { def main(args:Array[String]){ val spark=SparkSession.builder().appName("HbaseTest").config("spark.sql.catalogImplementation","odps").config("spark.hadoop....

访问Elasticsearch数据源

使用Scala连接阿里云Elasticsearch 下载与阿里云Elasticsearch实例版本对应的JAR包，下载链接，请参见 Elasticsearch Spark。本文下载的示例JAR包为Elasticsearch-spark-30_2.12-7.17.9.jar。在pom.xml文件的dependencies中添加依赖项。...

开发ODPS Spark任务

准备工作 ODPS Spark节点支持使用 Java/Scala 和 Python 语言运行Spark on MaxCompute离线作业，不同语言开发步骤及配置界面存在差异，您可根据业务需要选择使用。Java/Scala 在ODPS Spark节点执行Java或Scala语言类型代码前，您需先在本地...

开发ODPS Spark任务

准备工作 ODPS Spark节点支持使用 Java/Scala 和 Python 语言运行Spark on MaxCompute离线作业，不同语言开发步骤及配置界面存在差异，您可根据业务需要选择使用。Java/Scala 在ODPS Spark节点执行Java或Scala语言类型代码前，您需先在本地...

MaxCompute Spark节点

准备工作 MaxCompute Spark节点支持使用 Java/Scala 和 Python 语言运行Spark on MaxCompute离线作业，不同语言开发步骤及配置界面存在差异，您可根据业务需要选择使用。Java/Scala 在MaxCompute Spark节点执行Java或Scala语言类型代码前，...

在文件存储 HDFS 版上使用Apache Spark

本文使用的Scala版本为2.12.11。已下载Apache Spark压缩包。本文使用的Apache Spark版本为2.4.8。步骤一：配置Hadoop 执行以下命令解压Hadoop压缩包到指定目录。请根据实际情况替换/usr/local/tar-zxf hadoop-2.7.2.tar.gz-C/usr/local/...

读写MySQL

使用以下Scala代码编译并打包为JAR文件。package spark.test import org.apache.spark.sql.SparkSession object Main { def main(args:Array[String]):Unit={ val spark=SparkSession.builder().appName("test").getOrCreate()val newRows=...

读写PostgreSQL

使用以下Scala代码编译并打包为JAR文件。package spark.test import org.apache.spark.sql.SparkSession object Main { def main(args:Array[String]):Unit={ val spark=SparkSession.builder().appName("test").getOrCreate()val newRows=...

通过Spark导入数据

下述列表中 Connector 列从左到右版本依次含义为该jar包支持的Spark版本、使用的Scala版本以及Connector版本。Connector Runtime JAR 2.4-2.12-1.3.2 spark-doris-connector-2.4_2.12-1.3.2 3.1-2.12-1.3.2 spark-doris-connector-3.1_2.12...

Quick BI使用Elasticsearch数据源查询图表数据，在...

概述 Quick BI使用Elasticsearch数据源查询图表数据，在限制查询条件后报错“Cannot evaluate script”详细信息当您使用Elasticsearch数据源查询图表数据时报错“Cannot evaluate script”，通常是因为您在数据集自定义SQL中给字段取了...

批式读写

建表并写入数据 Scala/非分区表 data.write.format("delta").save("/tmp/delta_table")/分区表 data.write.format("delta").partitionedBy("date").save("/tmp/delta_table")SQL-非分区表 CREATE TABLE delta_table(id INT)USING delta ...

概述

本文为您介绍使用Java和Scala语言开发的示例。下载示例工程 MaxCompute Spark提供了项目示例工程模板，建议您下载复制后直接在模板里进行开发。执行如下命令下载示例工程。spark-1.x 模板及编译 git clone ...

MongoDB客户端SSL连接示例

示例代码 Scala驱动程序使用Netty提供的SSL底层支持与MongoDB服务器进行SSL连接。其中，将MongoClientSettings的sslEnabled设置为True，启用SSL连接；将InvalidHostNameAllowed设置为true，忽略域名检测。import org.mongodb.scala....

作业运行异常

问题原因在作业中同时包含WindowAggregate和GroupAggregate，且WindowAggregate的时间列为事件时间（proctime）时，如果 table.exec.mini-batch.size 未配置或者设置为负值，MiniBatch处理模式会使用Managed Memory缓存数据，而且无法生成...

使用Spark History Server查看Spark作业信息

Spark应用程序在运行期间会向外提供Web UI服务用于可视化作业信息，例如Stage和Task的详细信息、内存使用情况等。为了能够在作业执行结束后查看作业执行情况，您需要将Spark作业日志持久化到某一后端存储中，并通过ack-spark-history-...

2023年

了解更多代码检测服务支持使用云效流水线 Flow 组织设置的 Maven 配置进行编译构建，生效优先级如下：优先用户通过 mvn-settings 手动指定的配置文件其次云效 Flow 中组织设置的 Maven 配置支持创建分支时分支名称末尾使用/TASK-ID 格式...

使用UDF函数

本文将引导您完成 Python UDF 与 Java/Scala UDF 的完整使用流程。支持版本仅以下引擎版本支持本文示例：esr-5.x：esr-5.0.0及之后版本。esr-4.x：esr-4.6.0及之后版本。esr-3.x：esr-3.5.0及之后版本。esr-2.x：esr-2.9.0及之后版本。...

Spark使用OSS Select加速数据查询

本文介绍如何配置Spark使用OSS Select加速数据查询，以及使用OSS Select查询数据的优势。背景信息本文所有操作基于 Apache Impala(CDH6)处理OSS数据搭建的CDH6集群及配置。说明文中所有${} 的内容为环境变量，请根据您实际的环境修改。...

通过spark-submit提交任务

Java/Scala类型任务本文示例使用的spark-examples_2.12-3.3.1.jar，您可以单击 spark-examples_2.12-3.3.1.jar，直接下载测试JAR包，然后上传JAR包至OSS。该JAR包是Spark自带的一个简单示例，用于计算圆周率π的值。bin/spark-submit-name...

Spark读写Hologres

加载依赖 spark-shell-jars hologres-connector-spark-3.x-1.5.2-jar-with-dependencies.jar-本地测试使用绝对路径加载文件 scala:load D:/sparktest.scala 您也可以在加载依赖完成后，直接将示例代码粘贴进去执行。Java 您可以使用开发...

数据类型

使用Spark计算引擎访问表格存储时，您需要了解Spark数据类型、Scala中的值类型、表格存储中多元索引数据类型和表格存储表中数据类型的对应关系。使用过程中请确保Spark、Scala和表格存储中字段或值的数据类型相匹配。基础数据类型基础数据...

Spark批式读写Iceberg

引入Spark及Iceberg的依赖，以下代码示例指定了Spark 3.1.1与Iceberg 0.12.0版本，使用provided引包编译，运行时使用集群上的软件包。dependency groupId org.apache.spark/groupId artifactId spark-core_2.12/artifactId version 3.1.1/...

引擎版本介绍

说明您可以使用阿里云Fusion Engine提供的运行时环境，利用向量化和原生库等技术来加速SQL类应用的执行性能。Fusion引擎详情请参见 Fusion引擎。内容含义 esr-*EMR Serverless Spark版本号，例如esr-2.1。Spark*遵循的Apache Spark引擎...

Spark-1.x示例

lang/groupId artifactId scala-actors/artifactId version${scala.version}/version/dependency 上述代码中Scope的定义如下：spark-core、spark-sql等所有Spark社区发布的包，使用 provided Scope。odps-spark-datasource使用默认的 ...

读写StarRocks

例如，您使用的引擎版本为esr-4.1.0(Spark 3.5.2,Scala 2.12)，想使用1.1.2版本的Connector，则可以选择 starrocks-spark-connector-3.5_2.12-1.1.2.jar。将下载的Spark Connector JAR上传至阿里云OSS中，上传操作可以参见简单上传。步骤...

通过Apache Airflow提交任务

在使用Apache Airflow提交任务时，您可以通过使用Livy Operator或EmrServerlessSparkStartJobRunOperator两种方式与Serverless Spark进行交互。请根据实际情况选择最适合的方案。方式适用场景方式一：使用Livy Operator提交任务如果您...

流计算

本文介绍在使用Spark计算引擎访问表格存储时，如何通过DataFrame编程方式对表格存储中的数据进行流计算，并分别在本地和集群环境中进行运行调试。准备工作在表格存储中创建数据表，并创建数据通道、写入数据。详情请参见宽表模型快速入门...

批计算

本文介绍在使用Spark计算引擎访问表格存储时，如何通过DataFrame编程方式对表格存储中的数据进行批计算，并分别在本地和集群环境中进行运行调试。准备工作在表格存储中创建数据表，并写入数据。详情请参见宽表模型快速入门。说明数据表 ...

Flink Connector

例如您安装了Flink 1.14和Scala 2.12，并且您想要使用1.2.7版本的Flink Connector，您可以使用 flink-connector-starrocks-1.2.7_flink-1.14_2.12.jar。说明请根据实际情况替换以下信息：flink_version：Flink的版本号。scala_version：...

Spark应用开发介绍

Java应用参数参数名称是否必填示例值使用说明 args 否"args":["args0","args1"]请根据业务需求，填写使用JAR包时需要使用的参数。多个参数之间以英文逗号（,）分隔。className 是"className":"com.aliyun.spark.oss.SparkReadOss" Java...