Spark On HBase Idea远程调试

简介: 本文介绍如何在本地IDEA远程调试Spark On HBase。 前提条件: 1、已经安装了Intellij IDEA,Git、Maven。2、HBase集群开通了外网地址。3、HBase集群为IDEA运行的机器开通了白名单。

本文介绍如何在本地IDEA远程调试Spark On HBase。

前提条件:

1、已经安装了Intellij IDEA,Git、Maven。
2、HBase集群开通了外网地址。
3、HBase集群为IDEA运行的机器开通了白名单。

说明:

本实例用到的版本

软件名称 版本
Intellij IDEA community 2018.3.1
操作系统:macOS/Windows mac:10.13.6; Windows 10
jdk 1.8.0_25
scala 2.11.8
Maven 3.3.9

Idea 远程调试步骤

步骤 1: 下载样例代码

使用git clone 命令下载代码样例代码。

git clone https://github.com/aliyun/aliyun-apsaradb-hbase-demo.git

步骤 2: 导入代码到IDEA。

打开IDEA,选择"File">"Open...",选择步骤 1下载的代码:aliyun-apsaradb-hbase-demo

步骤 3: 设置运行配置

本实例Debug的类为:com.aliyun.spark.hbase.SparkOnHBaseSparkSession
点击IDEA运行按钮,选择"Edit Configurations..."进入配置页面,配置内容如下页面:
image

主要配置参数说明:

参数名称 说明
Main class com.aliyun.spark.hbase.SparkOnHBaseSparkSession 运行主类
VM options -Dspark.master=local Spark 本地运行
Program arguments hb-xxx:2181,hb-xxx:2181,hb-xx:2181 mytable spark_on_hbase 三个参数分别为:ZK链接地址(外网地址),hbase侧的表名 ,spark侧的表名
Use classpath of module spark-examples 同时勾选“Include dependencie是with "Provided" scope”

步骤 4:开始Debug

在类com.aliyun.spark.hbase.SparkOnHBaseSparkSession的如下位置设置断点:
image

搜索类:org.apache.hadoop.hbase.spark.DefaultSource,并在如下位置设置断点:
image

然后右键类com.aliyun.spark.hbase.SparkOnHBaseSparkSession,选择“Debug SparkOnHBaseSparkSession”开始Debug。如下:
image

相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
3月前
|
Java 应用服务中间件 测试技术
【IDEA】远程调试
IDEA远程调试weblogic
|
5月前
|
分布式计算 Java Scala
181 Spark IDEA中编写WordCount程序
181 Spark IDEA中编写WordCount程序
31 0
|
4月前
|
Java Shell 分布式数据库
【大数据技术Hadoop+Spark】HBase数据模型、Shell操作、Java API示例程序讲解(附源码 超详细)
【大数据技术Hadoop+Spark】HBase数据模型、Shell操作、Java API示例程序讲解(附源码 超详细)
82 0
|
4月前
|
分布式计算 监控 Java
Note_Spark_Day02:Standalone集群模式和使用IDEA开发应用程序
Note_Spark_Day02:Standalone集群模式和使用IDEA开发应用程序
50 0
|
22天前
IDEA远程调试Remote Debug
IDEA远程调试Remote Debug
12 0
|
2月前
|
分布式计算 Java Scala
spark 与 scala 的对应版本查看、在idea中maven版本不要选择17,弄了好久,换成11就可以啦
spark 与 scala 的对应版本查看、.在idea中maven版本不要选择17,弄了好久,换成11就可以啦
94 2
|
3月前
|
分布式计算 Kubernetes Java
spark on k8s native
spark on k8s native
|
3月前
|
分布式计算 分布式数据库 API
Spark与HBase的集成与数据访问
Spark与HBase的集成与数据访问
|
5月前
|
分布式计算 Java Scala
配置spark,并在idea中搭建项目
配置spark,并在idea中搭建项目
71 0
|
5月前
|
分布式计算 Kubernetes Serverless
Hago 的 Spark on ACK 实践
Hago 的 Spark on ACK 实践