spark大数据图-spark大数据图文档介绍内容-移动阿里云

使用Databricks Delta优化Spark作业性能

OSS宽带 10Gbps 背景信息 Databricks数据洞察内置了Databricks商业版引擎，您可以利用Databricks数据洞察创建集群，实现在秒级响应时间内处理PB级别的数据。本文示例制造100亿条数据，利用Databricks Delta的Data Skipping和ZOEDER ...

读取Parquet数据%spark val inputPath="oss:/databricks-data-source/datas/parquet_data"val dtDF=spark.read.format("parquet").option("mode","FAILFAST").load(inputPath)dtDF.show(3)dtDF.printSchema()SQL 方式%sql CREATE TABLE ...

产品性能

本文介绍Databricks数据洞察采用的企业版Spark引擎性能对比数据，Databricks Runtime（简写dbr）的性能及Delta Lake功能是本产品的核心优势。Databricks Runtime完全兼容开源版本Spark，并且相对开源Spark引擎TPC-DS平均性能有 3~5倍提升，...

Tablestore

本文介绍如何使用Databricks 读写Tablestore数据。前提条件已创建 Tablestore实例通过主账号登录阿里云 Databricks控制台。已创建DDI集群，具体请参见 DDI集群创建。创建集群并通过knox账号访问NoteBook。使用Databricks 读写Tablestore...

MaxCompute

本文介绍如何使用Databricks 读写MaxCompute数据。前提条件已创建 MaxCompute实例，具体参见快速体验MaxCompute 通过主账号登录阿里云 Databricks控制台。已创建DDI集群，具体请参见 DDI集群创建。创建集群并通过knox账号访问NoteBook。...

使用OPTIMIZE和Z-ORDER优化商品库存查询性能

步骤二：创建Notebook、导入数据、进行数据分析%pyspark#将csv文件转化为parquet格式#注意文件读取和保存的路径请按照您的oss路径进行配置 spark.read.option("header","true")\.csv("oss:/databricks-demo/online_retail.csv")\.select(...

Delta Lake 快速开始一

步骤二：创建Notebook、导入数据、进行数据分析定义Notebook中使用的路径path%pyspark#注意需要将数据文件events.json上传至您的OSS对应bucket下，events.json数据来源Databricks站点的open/close数据 inputPath="oss:/databricks-...

JSON文件

{"key":"value3","extra_key":"extra_value3"}} 数据读取%spark val path="oss:/databricks-data-source/datas/example.json"val data_json=spark.read.format("json").load(path)data_json.show()data_json.printSchema()2.添加mode，...

集群运维与监控

本文主要介绍Databricks数据洞察在集群维度的监控与告警能力。背景信息目前Databricks数据洞察主要采用阿里云监控服务，完整对接DBR指标体系，实现多维度、多实例、多时段的指标图表监控，用户可以根据业务情况，灵活自定义告警规则，...

优化数据转换

Databricks使用嵌套类型优化高阶函数和 DataFrame 操作的...请参阅以下文章以了解如何开始使用这些优化的高阶函数和复杂数据类型：Higher-order functions Transform complex data types 说明详细内容可参考Databricks官网文章：优化数据转换

OSS

本文介绍如何使用Databricks 读写 OSS文件系统数据。前提条件通过主账号登录阿里云 Databricks控制台。已创建集群，具体请参见创建集群。已使用OSS管理控制台创建非系统目录存储空间，详情请参见创建存储空间。警告首次使用DDI产品...

Databricks Runtime

有关顶级库和其他提供的库的完整列表，请参见以下有关每个可用Runtime的文章：Databricksr Runtime 7.4 ML（测试版）Databricks Runtime 7.3 LTS ML Databricks Runtime 7.2 ML Databricks Runtime 7.1 ML Databricks Runtime 7.0 ML ...

基于TPC-DS测试Databricks引擎性能

在Databricks数据洞察的项目空间中创建一个新项目，操作如下：步骤三：生成测试数据集脚本 spark资源可以根据测试数据量与集群规模配置的具体情况，进行逐一调整。scale_factor参数控制整个测试集的数据量（如scale_factor=1000 即1T的数据...

表版本控制

您还可以通过设置SQL配置来设置默认协议版本：spark.databricks.delta.protocol.minWriterVersion=2(default)spark.databricks.delta.protocol.minReaderVersion=1(default)要将表升级到较新的协议版本，请使用以下DeltaTable....

Java库管理

使用NoteBook引入Java依赖的三种方式 spark.jars spark.jars.packages spark.files 说明用户做好配置之后，在启动spark任务之前（即第一次运行spark、pyspark、sparkR或者sparkSQL相关代码之前）运行spark.conf段落即可对将要启动的spark...

常见问题（FAQ）

客户提供的加密密钥的服务器端加密您可以通过将设置spark.databricks.delta.multiClusterWrites.enabled为来禁用多集群写入false。如果禁用它们，对单个表的写入必须来自单个集群。我可以在Databricks Runtime之外访问Delta表吗？有两种...

EMR HDFS

本文介绍如何使用Databricks 读写EMR HDFS文件系统数据。前提条件通过主账号登录阿里云 Databricks控制台。已创建 EMR集群，具体参见 EMR集群创建已创建DDI集群，具体请参见 DDI集群创建。创建集群并通过knox账号访问Notebook。接入EMR ...

作业日期设置

在Databricks数据洞察控制台页面，选择所在的地域（Region）。创建的集群将会在对应的地域内，一旦创建后不能修改。在左侧导航栏，单击项目空间。在项目空间页面，单击待操作项目所在行的作业编辑。进行作业设置。在作业编辑页面，选择...

约束条件

说明详细内容请参考Databricks官网文章：约束条件注意在Databricks Runtime 7.4及更高版本中可用。Delta表支持标准的SQL约束管理子句，以确保自动验证添加到表中的数据的质量和完整性。当违反约束时，Delta Lake会抛出一个...

动态文件剪枝

DFP主要由如下几个Spark配置项控制：spark.databricks.optimizer.dynamicFilePruning（默认值为true）：表示是否使用DFP，如果为true，则启动DFP，下沉DFP的过滤器，减少扫描的数据量。如果设置为false，则不启用DFP。spark.databricks....

返回结果

调用成功返回的数据格式主要有 XML 和 JSON 两种，外部系统可以在请求时传入参数来制定返回的数据格式，默认为 XML 格式。成功结果 JSON示例：{"Data":"true","RequestId":"2670BCFB-925D-4C3E-9994-8D12F7A9F538"} 错误结果调用接口出错...

解绑标签

调用UntagResources接口可以为指定的Databricks集群解绑标签。解绑后，如果该标签没有绑定其他任何资源，会被自动删除。请求参数名称类型是否必选示例值描述 Action String 否 TagResource 系统规定参数。对于您自行拼凑HTTP或...

API概览

创建数据开发作业调用 CreateFlowJob接口，创建数据开发作业。创建项目空间调用CreateFlowProject，根据传入的地域、名称和描述创建项目空间，并返回创建好的项目空间的ID。删除工作流调用DeleteFlow接口，删除工作流。删除数据开发项目...

删除数据开发项目

调用 DeleteFlowProject 接口删除数据开发项目。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String ...

修改数据开发项目

调用 ModifyFlowProject 接口，修改数据开发项目。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String...

开启并配置弹性伸缩

当您的业务量需求不断波动时，建议您开启弹性伸缩功能并配置相应的伸缩规则，以使Databricks数据洞察可按业务量波动来增加和减少Task节点。操作步骤登录阿里云Databricks控制台。在顶部菜单栏处，根据实际情况选择地域（Region）和资源组...

查看弹性伸缩记录

操作步骤登录阿里云Databricks控制台。在顶部菜单栏处，根据实际情况选择地域（Region）和资源组。单击上方的集群管理页签。在集群管理页面，单击相应集群所在行的详情。在详情页面上部页签栏，单击弹性伸缩。右上角单击弹性...

克隆工作流

返回数据名称类型示例值描述 Id String FJ-3FC8XXXXXDXX00C0 clone得到的新的作业ID RequestId String 0b16392216407604990527735e8d05 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=CloneFlow&ProjectId=FP-A1BE52DDXXXXX3&Id=...

删除项目用户

返回数据名称类型示例值描述 Data Boolean true 返回执行结果，包含如下：true：删除成功。false：删除失败。RequestId String 243D5A48-96A5-4C0C-8966-93CBF65635ED 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=...

克隆作业

返回数据名称类型示例值描述 Id String FJ-06D12BA16419*新产生的作业ID。RequestId String BCE475E4-129D-43D2-8595-C80B80CBC114 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=CloneFlowJob&ProjectId=FP-C62EEC30F773*&Id=FJ...

创建并绑定标签

调用TagResources接口，为指定的Databricks集群列表统一创建并绑定标签。调用该接口时，有如下使用限制：最多可以给集群绑定20个标签（包括集群已有标签）标签键和值均不能以“acs:”或者“aliyun”开头，且标签键和值均不能包含“http://...

暂停工作流

返回数据名称类型示例值描述 Data Boolean true 返回执行结果。RequestId String B46F8A2A-B46B-415C-8A9C-B01B99B775A2 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=SuspendFlow&RegionId=...

CreateClusterV2

调用CreateClusterV2，创建一个Databricks 数据洞察集群。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action...

恢复工作流

返回数据名称类型示例值描述 Data Boolean true 返回执行结果。RequestId String B46F8A2A-B46B-415C-8A9C-B01B99B775A2 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=ResumeFlow&RegionId=...

结束工作流

返回数据名称类型示例值描述 Data Boolean true 返回执行结果，包含如下：true：重试工作流成功。false：重试工作流失败。RequestId String B46F8A2A-B46B-415C-8A9C-B01B99B775A2 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=...

重命名目录

返回数据名称类型示例值描述 Data Boolean true 返回执行结果，包含如下：true：表示修改成功。false：表示修改失败。RequestId String CEA9AFD2-B340-41F4-A661-8916CBF07C32 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=...

停止作业实例

返回数据名称类型示例值描述 Data Boolean true 返回执行结果，包含如下：true（执行成功），false（执行失败）RequestId String B46F8A2A-B46B-415C-8A9C-B01B99B775A2 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=...

重试工作流

返回数据名称类型示例值描述 Data Boolean true 返回执行结果，包含如下：true:重试工作流成功，false:重试工作流失败。RequestId String B46F8A2A-B46B-415C-8A9C-B01B99B775A2 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=...

ORC文件

读取orc数据%spark val inputPath="oss:/databricks-data-source/datas/orc_data"val dataDF=spark.read.format("orc").option("header","true").option("inferSchema","true").option("mode","FAILFAST").load(inputPath)dataDF.show(3)...

查询数据开发中可用的集群列表

调用ListFlowClusterAll接口，查询数据开发可用的集群列表。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 ...