scala使用

_相关内容

Flink

示例2:使用Scala写的Streaming WordCount。PyFlink(%flink.pyflink)PyFlink是Flink on Zeppelin上Python语言的入口,Flink Interpreter内部会创建Python Shell。Python Shell内部会创建Flink的各种Environment,但是PyFlink里的各种...

使用JDBC Connector导入

当前版本的flink-connector-jdbc,使用Scala API调用JdbcSink时会出现lambda函数的序列化问题。我们只能采用手动实现interface的方式来传入相关JDBC Statement build函数(class CkSinkBuilder)。class CkSinkBuilder extends ...

Spark on MaxCompute访问Phoenix数据

使用Scala编程语言编写Spark代码逻辑进行测试。在IDEA中按照对应的Pom文件配置本地开发环境。您可以先使用公网连接地址进行测试,待代码逻辑验证成功后再调整代码示例中 spark.hadoop.odps.end.point 参数内容。公网连接地址请通过登录 ...

Spark Shell和RDD基础操作

Spark既可以使用Scala,也可以使用Python。您可以按照以下操作步骤来启动Spark Shell。使用SSH方式登录集群的Master节点,详情请参见 登录集群。执行以下命令,启动Spark Shell。spark-shell 在Spark Shell中,已经在名为sc的变量中为您...

自定义标量函数(UDSF)

仅支持开源Scala V2.11版本,如果Python作业中依赖第三方JAR包,请确保使用Scala V2.11对应的JAR包依赖。UDSF开发 说明 Flink为您提供了Python自定义函数示例,便于您快速开发自定义函数。Flink Python自定义函数示例中包含了Python UDSF、...

安装Kafka单机版

背景信息 Apache Kafka是一个开源流处理平台,使用Scala和Java语言编写。Kafka作为一种高吞吐量的分布式发布-订阅消息系统,可以处理消费者模式网站中的所有动作流数据。模板示例 Kafka 单机版(已有VPC)在已有专有网络、交换机和安全组等...

自定义表值函数(UDTF)

仅支持开源Scala V2.11版本,如果Python作业中依赖第三方JAR包,请确保使用Scala V2.11对应的JAR包依赖。UDTF开发 说明 Flink为您提供了Python UDX示例,便于您快速开发UDX。Flink Python UDX示例中包含了Python UDF、Python UDAF和Python ...

自定义聚合函数(UDAF)

仅支持开源Scala V2.11版本,如果Python作业中依赖第三方JAR包,请确保使用Scala V2.11对应的JAR包依赖。UDAF开发 说明 Flink为您提供了Python UDX示例,便于您快速开发UDX。Flink Python UDX示例中包含了Python UDF、Python UDAF和Python ...

安装Kafka集群版

背景信息 Apache Kafka是一个开源流处理平台,使用Scala和Java语言编写。Kafka作为一种高吞吐量的分布式发布订阅消息系统,可以处理消费者模式网站中的所有动作流数据。模板示例 Kafka 集群版-已有专有网络VPC 在已有专有网络、交换机和...

Python作业开发

如果Python作业中依赖第三方JAR包,请确保使用Scala版本对应的JAR包依赖。作业开发 开发参考 您可以参见以下文档在本地完成Flink业务代码开发,开发完成后您需要将其上传到Flink开发控制台,并部署上线作业。Apache Flink V1.20业务代码...

Spark on MaxCompute如何访问HBase

使用Scala编程语言,按如下代码示例编写Spark代码逻辑。object App { def main(args:Array[String]){ val spark=SparkSession.builder().appName("HbaseTest").config("spark.sql.catalogImplementation","odps").config("spark.hadoop....

访问Elasticsearch数据源

使用Scala连接阿里云Elasticsearch 下载与阿里云Elasticsearch实例版本对应的JAR包,下载链接,请参见 Elasticsearch Spark。本文下载的示例JAR包为Elasticsearch-spark-30_2.12-7.17.9.jar。在pom.xml文件的dependencies中添加依赖项。...

开发ODPS Spark任务

准备工作 ODPS Spark节点支持使用 Java/Scala 和 Python 语言运行Spark on MaxCompute离线作业,不同语言开发步骤及配置界面存在差异,您可根据业务需要选择使用。Java/Scala 在ODPS Spark节点执行Java或Scala语言类型代码前,您需先在本地...

开发ODPS Spark任务

准备工作 ODPS Spark节点支持使用 Java/Scala 和 Python 语言运行Spark on MaxCompute离线作业,不同语言开发步骤及配置界面存在差异,您可根据业务需要选择使用。Java/Scala 在ODPS Spark节点执行Java或Scala语言类型代码前,您需先在本地...

MaxCompute Spark节点

准备工作 MaxCompute Spark节点支持使用 Java/Scala 和 Python 语言运行Spark on MaxCompute离线作业,不同语言开发步骤及配置界面存在差异,您可根据业务需要选择使用。Java/Scala 在MaxCompute Spark节点执行Java或Scala语言类型代码前,...

在文件存储 HDFS 版上使用Apache Spark

本文使用Scala版本为2.12.11。已 下载Apache Spark压缩包。本文使用的Apache Spark版本为2.4.8。步骤一:配置Hadoop 执行以下命令解压Hadoop压缩包到指定目录。请根据实际情况替换/usr/local/tar-zxf hadoop-2.7.2.tar.gz-C/usr/local/...

读写MySQL

使用以下Scala代码编译并打包为JAR文件。package spark.test import org.apache.spark.sql.SparkSession object Main { def main(args:Array[String]):Unit={ val spark=SparkSession.builder().appName("test").getOrCreate()val newRows=...

读写PostgreSQL

使用以下Scala代码编译并打包为JAR文件。package spark.test import org.apache.spark.sql.SparkSession object Main { def main(args:Array[String]):Unit={ val spark=SparkSession.builder().appName("test").getOrCreate()val newRows=...

通过Spark导入数据

下述列表中 Connector 列从左到右版本依次含义为该jar包支持的Spark版本、使用Scala版本以及Connector版本。Connector Runtime JAR 2.4-2.12-1.3.2 spark-doris-connector-2.4_2.12-1.3.2 3.1-2.12-1.3.2 spark-doris-connector-3.1_2.12...

Quick BI使用Elasticsearch数据源查询图表数据,在...

概述 Quick BI使用Elasticsearch数据源查询图表数据,在限制查询条件后报错“Cannot evaluate script”详细信息 当您使用Elasticsearch数据源查询图表数据时报错“Cannot evaluate script”,通常是因为您在数据集自定义SQL中给字段取了...

批式读写

建表并写入数据 Scala/非分区表 data.write.format("delta").save("/tmp/delta_table")/分区表 data.write.format("delta").partitionedBy("date").save("/tmp/delta_table")SQL-非分区表 CREATE TABLE delta_table(id INT)USING delta ...

概述

本文为您介绍使用Java和Scala语言开发的示例。下载示例工程 MaxCompute Spark提供了项目示例工程模板,建议您下载复制后直接在模板里进行开发。执行如下命令下载示例工程。spark-1.x 模板及编译 git clone ...

MongoDB客户端SSL连接示例

示例代码 Scala驱动程序使用Netty提供的SSL底层支持与MongoDB服务器进行SSL连接。其中,将MongoClientSettings的sslEnabled设置为True,启用SSL连接;将InvalidHostNameAllowed设置为true,忽略域名检测。import org.mongodb.scala....

作业运行异常

问题原因 在作业中同时包含WindowAggregate和GroupAggregate,且WindowAggregate的时间列为事件时间(proctime)时,如果 table.exec.mini-batch.size 未配置或者设置为负值,MiniBatch处理模式会使用Managed Memory缓存数据,而且无法生成...

使用Spark History Server查看Spark作业信息

Spark应用程序在运行期间会向外提供Web UI服务用于可视化作业信息,例如Stage和Task的详细信息、内存使用情况等。为了能够在作业执行结束后查看作业执行情况,您需要将Spark作业日志持久化到某一后端存储中,并通过ack-spark-history-...

2023年

了解更多 代码检测服务支持使用云效流水线 Flow 组织设置的 Maven 配置进行编译构建,生效优先级如下:优先用户通过 mvn-settings 手动指定的配置文件 其次云效 Flow 中组织设置的 Maven 配置 支持创建分支时分支名称末尾使用/TASK-ID 格式...

使用UDF函数

本文将引导您完成 Python UDF 与 Java/Scala UDF 的完整使用流程。支持版本 仅以下引擎版本支持本文示例:esr-5.x:esr-5.0.0及之后版本。esr-4.x:esr-4.6.0及之后版本。esr-3.x:esr-3.5.0及之后版本。esr-2.x:esr-2.9.0及之后版本。...

Spark使用OSS Select加速数据查询

本文介绍如何配置Spark使用OSS Select加速数据查询,以及使用OSS Select查询数据的优势。背景信息 本文所有操作基于 Apache Impala(CDH6)处理OSS数据 搭建的CDH6集群及配置。说明 文中所有${} 的内容为环境变量,请根据您实际的环境修改。...

通过spark-submit提交任务

Java/Scala类型任务 本文示例使用的spark-examples_2.12-3.3.1.jar,您可以单击 spark-examples_2.12-3.3.1.jar,直接下载测试JAR包,然后上传JAR包至OSS。该JAR包是Spark自带的一个简单示例,用于计算圆周率π的值。bin/spark-submit-name...

Spark读写Hologres

加载依赖 spark-shell-jars hologres-connector-spark-3.x-1.5.2-jar-with-dependencies.jar-本地测试使用绝对路径加载文件 scala:load D:/sparktest.scala 您也可以在加载依赖完成后,直接将示例代码粘贴进去执行。Java 您可以使用开发...

数据类型

使用Spark计算引擎访问表格存储时,您需要了解Spark数据类型、Scala中的值类型、表格存储中多元索引数据类型和表格存储表中数据类型的对应关系。使用过程中请确保Spark、Scala和表格存储中字段或值的数据类型相匹配。基础数据类型 基础数据...

Spark批式读写Iceberg

引入Spark及Iceberg的依赖,以下代码示例指定了Spark 3.1.1与Iceberg 0.12.0版本,使用provided引包编译,运行时使用集群上的软件包。dependency groupId org.apache.spark/groupId artifactId spark-core_2.12/artifactId version 3.1.1/...

引擎版本介绍

说明 您可以使用阿里云Fusion Engine提供的运行时环境,利用向量化和原生库等技术来加速SQL类应用的执行性能。Fusion引擎详情请参见 Fusion引擎。内容 含义 esr-*EMR Serverless Spark版本号,例如esr-2.1。Spark*遵循的Apache Spark引擎...

Spark-1.x示例

lang/groupId artifactId scala-actors/artifactId version${scala.version}/version/dependency 上述代码中Scope的定义如下:spark-core、spark-sql等所有Spark社区发布的包,使用 provided Scope。odps-spark-datasource使用默认的 ...

读写StarRocks

例如,您使用的引擎版本为esr-4.1.0(Spark 3.5.2,Scala 2.12),想使用1.1.2版本的Connector,则可以选择 starrocks-spark-connector-3.5_2.12-1.1.2.jar。将下载的Spark Connector JAR上传至阿里云OSS中,上传操作可以参见 简单上传。步骤...

通过Apache Airflow提交任务

使用Apache Airflow提交任务时,您可以通过使用Livy Operator或EmrServerlessSparkStartJobRunOperator两种方式与Serverless Spark进行交互。请根据实际情况选择最适合的方案。方式 适用场景 方式一:使用Livy Operator提交任务 如果您...

流计算

本文介绍在使用Spark计算引擎访问表格存储时,如何通过DataFrame编程方式对表格存储中的数据进行流计算,并分别在本地和集群环境中进行运行调试。准备工作 在表格存储中创建数据表,并创建数据通道、写入数据。详情请参见 宽表模型快速入门...

批计算

本文介绍在使用Spark计算引擎访问表格存储时,如何通过DataFrame编程方式对表格存储中的数据进行批计算,并分别在本地和集群环境中进行运行调试。准备工作 在表格存储中创建数据表,并写入数据。详情请参见 宽表模型快速入门。说明 数据表 ...

Flink Connector

例如您安装了Flink 1.14和Scala 2.12,并且您想要使用1.2.7版本的Flink Connector,您可以使用 flink-connector-starrocks-1.2.7_flink-1.14_2.12.jar。说明 请根据实际情况替换以下信息:flink_version:Flink的版本号。scala_version:...

Spark应用开发介绍

Java应用参数 参数名称 是否必填 示例值 使用说明 args 否"args":["args0","args1"]请根据业务需求,填写使用JAR包时需要使用的参数。多个参数之间以英文逗号(,)分隔。className 是"className":"com.aliyun.spark.oss.SparkReadOss" Java...
< 1 2 3 4 ... 11 >
共有11页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用