spark 存储hadoop文件-spark 存储hadoop文件文档介绍内容-移动阿里云

开启并配置弹性伸缩

当您的业务量需求不断波动时，建议您开启弹性伸缩功能并配置相应的伸缩规则，以使Databricks数据洞察可按业务量波动来增加和减少Task节点。操作步骤登录阿里云Databricks控制台。在顶部菜单栏处，根据实际情况选择地域（Region）和资源组...

Python库管理

本文介绍在Databricks数据洞察控制台，执行Spark作业时，如何安装自定义的库或者第三方库。添加库使用阿里云账号登录 Databricks数据洞察控制台。在Databricks数据洞察控制台页面，选择所在的地域（Region）。创建的集群将会在对应的地域...

项目空间运维与监控

本文主要介绍Databricks数据洞察中项目空间具有的运维与监控能力。背景信息项目空间的运维能力主要辅助作业开发和工作流生产，前者提供作业开发过程中的日志监控、版本监控和操作审计监控；后者兼容前者的功能，更提供针对调度场景下的...

数据源

本文将解答与数据源相关的问题。Q：Databricks数据洞察的支持哪些数据源？目前支持读写阿里云对象存储（OSS）的数据。Q：是否支持当前的DDI集群访问其他集群的HDFS数据？支持访问同账号下的EMR Hadoop集群上的HDFS数据。

按时间伸缩规则配置

配置伸缩规则在Databricks数据洞察中开启弹性伸缩时，如果选择按时间配置伸缩规则，则根据以下说明配置相关参数即可伸缩规则分为扩容规则和缩容规则。集群关闭弹性伸缩功能后，所有规则会被清空，再次开启弹性伸缩功能时，需要重新配置...

PySpark及Python库使用

本文介绍如何使用阿里云 Databricks数据洞察 Notebook 进行 PySpark 开发。重要若要使用其他数据源进行数据开发，需开通相应服务。本示例采用OSS数据源。步骤一：创建 Databricks数据洞察集群登录阿里云Databricks数据洞察控制台。创建...

创建集群

本节介绍如何使用Databricks数据洞察控制台创建集群。前提条件已注册阿里云账号，并完成实名认证。详情请参见阿里云账号注册流程。操作步骤使用阿里云账号登录 Databricks数据洞察控制台。在Databricks数据洞察控制台页面，选择所在的...

RDS(SQL Server)

登录Databricks数据洞察集群进入Notebook，代码实现SQL Server数据读写。示例文本下载：The_Sorrows_of_Young_Werther.txt 在Notebook中使用%spark读取OSS文件，并执行WordCount代码实现。spark/从oss读取数据到spark的rdd import org....

HBase

打通网络环境登录阿里云Databricks数据洞察控制台。进入DDI 数据源点击添加选择通用网络打通，选择HBase数据库所在的VPC和vsw。登录 HBase控制台添加DDI集群各个机器IP至访问白名单。创建HBase表准备数据，本实例使用的HBase表为：...

使用Spark Structured Streaming实时处理Kafka数据

本文介绍如何使用阿里云 Databricks 数据洞察创建的集群去访问外部数据源 E-MapReduce，并运行Spark Structured Streaming作业以消费Kafka数据。前提条件已注册阿里云账号，详情请参见阿里云账号注册流程。已开通 E-MapReduce服务。已...

集群运维与监控

本文主要介绍Databricks数据洞察在集群维度的监控与告警能力。背景信息目前Databricks数据洞察主要采用阿里云监控服务，完整对接DBR指标体系，实现多维度、多实例、多时段的指标图表监控，用户可以根据业务情况，灵活自定义告警规则，...

Java库管理

在NoteBook中加载spark.files 配置文件%spark.conf spark.files oss:/databricks-data-source/jars/conf.properties 3.在NoteBook实现读取配置文件信息，链接MySQL%spark import java.util.Properties/使用Properties读取配置文件信息 val ...

FAILFAST").load(path)dtDF.show()写 CSV文件%spark val path="oss:/databricks-data-source/datas/input.csv"val dtDF=spark.read.format("csv").option("header","true").option("mode","FAILFAST").load(path)val writeDF=dtDF....

管理作业

在Databricks数据洞察控制台页面，选择所在的地域（Region）。创建的集群将会在对应的地域内，一旦创建后不能修改。在左侧导航栏，单击项目空间。在项目空间页面，单击待操作项目所在行的作业编辑。在作业编辑区域，在需要操作的文件...

Spark作业原生运维与监控

背景信息 Databricks数据洞察提供了原生的监控运维UI，例如Spark UI和YARN UI，用户可根据自己的需求进行查询。本文主要介绍原生UI透露出来的日志监控和指标查询，配合平台侧的运维与监控能力，更好的服务于用户，运维Spark作业。集群Web ...

管理Notebook

在Databricks数据洞察控制台页面，选择所在的地域（Region）。创建的集群将会在对应的地域内，一旦创建后不能修改。在左侧导航栏中，单击 Notebook。在 Notebook 区域，选择待操作的集群。单击 Create new note。在 Create new note 对话框...

Parquet（推荐）

Parquet是一种开源的面向列的数据存储格式，它提供了各种存储优化，尤其适合数据分析。Parquet提供列压缩从而可以节省空间，而且它支持按列读取而非整个文件的读取。作为一种文件格式，Parquet与Apache Spark配合的很好，而且实际上也是...

OSS

本文介绍如何使用Databricks 读写 OSS文件系统数据。前提条件通过主账号登录阿里云 Databricks控制台。已创建集群，具体请参见创建集群。已使用OSS管理控制台创建非系统目录存储空间，详情请参见创建存储空间。警告首次使用DDI产品...

Databricks数据洞察快速使用

本文指引您快速完成一次完整的Databricks数据洞察的使用操作。前提条件已使用OSS管理控制台创建非系统目录存储空间，详情请参见创建存储空间。警告首次使用DDI产品创建的Bucket为系统目录Bucket，不建议存放数据，您需要再创建一个...

使用Databricks Delta优化Spark作业性能

OSS宽带 10Gbps 背景信息 Databricks数据洞察内置了Databricks商业版引擎，您可以利用Databricks数据洞察创建集群，实现在秒级响应时间内处理PB级别的数据。本文示例制造100亿条数据，利用Databricks Delta的Data Skipping和ZOEDER ...

OSS数据权限隔离

GetObject","oss:PutObject"],"Resource":["acs:oss:*:*:prod-bucket","acs:oss:*:*:prod-bucket/*"]}]} 按上述脚本示例进行权限隔离后，RAM用户在Databricks 数据洞察控制台的权限如下：在创建集群、创建作业和创建工作流的OSS文件页面，...

项目管理

创建Databricks 数据洞察集群后，您可以在数据开发中创建项目，并在项目中进行作业的编辑和工作流的调度。新建项目之后，您可以对项目进行管理，为项目关联集群资源、添加项目成员以及设置全局变量。前提条件已创建集群，详情请参见集群...

通过缓存优化性能

每个节点为缓存的元数据保留的磁盘空间（以字节为单位）spark.databricks.io.cache.compression.enabled-缓存的数据是否应以压缩格式存储 INI spark.databricks.io.cache.maxDiskUsage 50g spark.databricks.io.cache.maxMetaDataCache 1g ...

作业提交示例

前提条件在Databricks数据洞察产品中创建一个集群，详情请参见创建集群已使用OSS管理控制台创建非系统目录存储空间，详情请参见创建存储空间。警告首次使用DDI产品创建的Bucket为系统目录Bucket，不建议存放数据，您需要再创建一个...

MongoDB

本文介绍如何使用Databricks DDI访问MongoDB数据源数据。...已创建MongoDB实例。...Djavax.net.ssl.trustStore=/home/hadoop/cer/ApsaraDB-CA-Chain.jks -Djavax.net.ssl.trustStorePassword=*spark.driver.extraJavaOptions-Djavax....

EMR HDFS

本文介绍如何使用Databricks 读写EMR HDFS文件系统数据。前提条件通过主账号登录阿里云 Databricks控制台。已创建 EMR集群，具体参见 EMR集群创建已创建DDI集群，具体请参见 DDI集群创建。创建集群并通过knox账号访问Notebook。接入EMR ...

表版本控制

您还可以通过设置SQL配置来设置默认协议版本：spark.databricks.delta.protocol.minWriterVersion=2(default)spark.databricks.delta.protocol.minReaderVersion=1(default)要将表升级到较新的协议版本，请使用以下DeltaTable....

Tablestore

本文介绍如何使用Databricks 读写Tablestore数据。前提条件已创建 Tablestore实例通过主账号登录阿里云 Databricks控制台。已创建DDI集群，具体请参见 DDI集群创建。创建集群并通过knox账号访问NoteBook。使用Databricks 读写Tablestore...

MaxCompute

本文介绍如何使用Databricks 读写MaxCompute数据。前提条件已创建 MaxCompute实例，具体参见快速体验MaxCompute 通过主账号登录阿里云 Databricks控制台。已创建DDI集群，具体请参见 DDI集群创建。创建集群并通过knox账号访问NoteBook。...

表批读写

与不指定路径的内部表不同，当您使用DROP表时，不会删除外部表的文件如果运行CREATE TABLE的位置已经包含使用Delta Lake存储的数据，Delta Lake将执行以下操作：如果只指定表名和位置，例如：SQL%sql CREATE TABLE events USING DELTA ...

RDS(MySQL)

4.登录Databricks数据洞察集群进入Notebook，代码实现MySQL数据读写。示例文本下载：The_Sorrows_of_Young_Werther.txt%spark import java.sql.{Connection,DriverManager,PreparedStatement} import java.util.Properties import org....

工作流调度Zeppelin Notebook

在Databricks数据开发中，您可以在项目空间的作业编辑中创建一组有依赖的 Zeppelin 作业，然后创建工作流，按照依赖次序定义执行顺序，Databricks工作流支持基于有向无环（DAG）并行执行大数据作业。前提条件通过主账号登录阿里云 ...

JSON文件

在Spark中，我们提及的JSON文件是换行符分隔的JSON，每行必须包含一个单独的，独立有效的JSON对象。前提条件通过主账号登录阿里云 Databricks控制台。已创建集群，具体请参见创建集群。已使用OSS管理控制台创建非系统目录存储空间，...

基于TPC-DS测试Databricks引擎性能

在Databricks数据洞察的项目空间中创建一个新项目，操作如下：步骤三：生成测试数据集脚本 spark资源可以根据测试数据量与集群规模配置的具体情况，进行逐一调整。scale_factor参数控制整个测试集的数据量（如scale_factor=1000 即1T的数据...

Delta Lake 快速开始一

步骤二：创建Notebook、导入数据、进行数据分析定义Notebook中使用的路径path%pyspark#注意需要将数据文件events.json上传至您的OSS对应bucket下，events.json数据来源Databricks站点的open/close数据 inputPath="oss:/databricks-...

通过JDBC连接Spark Thrift Server提交Spark作业

本文介绍通过JDBC连接Spark Thrift Servert并成功提交Spark作业。前提条件连接Spark Thrift Server需要校验用户名和密码，请进行用户认证配置，请参见：用户管理 DDI集群Spark Thrift Server默认端口号为10001，请确认成功添加安全组白...

Databricks数据洞察Notebook演示

本文针对Databricks数据洞察Notebook基本使用的一个示例。前提条件通过主账号登录阿里云 Databricks控制台。已创建集群，具体请参见创建集群。已使用OSS管理控制台创建非系统目录存储空间，详情请参见创建存储空间。警告首次使用DDI...

ORC文件

ORC是为Hadoop作业而设计的自描述，类型感知的列存储文件格式。它针对大型流式数据读取进行了优化，但集成了对快速查询所需要行的相关支持。ORC和Parquet文件格式的区别：本质上Parquet针对Spark进行了优化，而ORC针对Hive进行的优化。前提...

文本文件

读取纯文本文件，文件中的每一行将被解析为DataFrame中的一条记录，然后根据要求进行转换，由于文本文件能够充分利用原生类型（native type）的灵活性，因此很适合作为DataSetAPI的输入。前提条件通过主账号登录阿里云 Databricks控制台...

Delta Engine 概述

Delta Engine 是与 Apache Spark 兼容的高性能查询引擎，提供了一种高效的方式来处理数据湖中的数据，包括存储在开源 Delta Lake 中的数据。Delta Engine 优化可加快数据湖操作速度，并支持各种工作负载，从大规模 ETL 处理到临时交互式...