DATABRICKS数据洞察如何-DATABRICKS数据洞察如何文档介绍内容-移动阿里云

EMR HDFS

本文介绍如何使用Databricks 读写EMR HDFS文件系统数据。前提条件通过主账号登录阿里云 Databricks控制台。已创建 EMR集群，具体参见 EMR集群创建已创建DDI集群，具体请参见 DDI集群创建。创建集群并通过knox账号访问Notebook。接入EMR ...

返回结果

调用成功返回的数据格式主要有 XML 和 JSON 两种，外部系统可以在请求时传入参数来制定返回的数据格式，默认为 XML 格式。成功结果 JSON示例：{"Data":"true","RequestId":"2670BCFB-925D-4C3E-9994-8D12F7A9F538"} 错误结果调用接口出错...

公共参数

公共请求参数是指每个接口都需要使用到的请求参数。...返回结果数据->接口名称+Response>JSON示例：{"RequestId":"4C467B38-3910-447D-87BC-AC049166F216",/*返回结果数据*/}$icmsDocProps={'productMethod':'created','language':'zh-CN',};

表删除，更新和合并

要在使用updateAll和insertAll（至少其中一个）执行merge操作期间自动更新表架构，可以在运行merge操作之前设置Spark会话配置spark.databricks.delta.schema.autoMerge.enabled为true。说明架构演变仅在同时存在一个updateAll或一个...

使用OPTIMIZE和Z-ORDER优化商品库存查询性能

步骤二：创建Notebook、导入数据、进行数据分析%pyspark#将csv文件转化为parquet格式#注意文件读取和保存的路径请按照您的oss路径进行配置 spark.read.option("header","true")\.csv("oss:/databricks-demo/online_retail.csv")\.select(...

读取orc数据%spark val inputPath="oss:/databricks-data-source/datas/orc_data"val dataDF=spark.read.format("orc").option("header","true").option("inferSchema","true").option("mode","FAILFAST").load(inputPath)dataDF.show(3)...

通过缓存优化性能

每个节点为缓存的元数据保留的磁盘空间（以字节为单位）spark.databricks.io.cache.compression.enabled-缓存的数据是否应以压缩格式存储 INI spark.databricks.io.cache.maxDiskUsage 50g spark.databricks.io.cache.maxMetaDataCache 1g ...

动态文件剪枝

DFP主要由如下几个Spark配置项控制：spark.databricks.optimizer.dynamicFilePruning（默认值为true）：表示是否使用DFP，如果为true，则启动DFP，下沉DFP的过滤器，减少扫描的数据量。如果设置为false，则不启用DFP。spark.databricks....

JSON文件

{"key":"value3","extra_key":"extra_value3"}} 数据读取%spark val path="oss:/databricks-data-source/datas/example.json"val data_json=spark.read.format("json").load(path)data_json.show()data_json.printSchema()2.添加mode，...

Parquet（推荐）

读取Parquet数据%spark val inputPath="oss:/databricks-data-source/datas/parquet_data"val dtDF=spark.read.format("parquet").option("mode","FAILFAST").load(inputPath)dtDF.show(3)dtDF.printSchema()SQL 方式%sql CREATE TABLE ...

入门笔记本

这些笔记本显示了如何将JSON数据转换为Delta Lake格式，创建Delta表，追加到表，优化结果表，最后使用Delta Lake元数据命令显示表的历史记录，格式和详细信息。Delta Lake Quickstart Python笔记本 Note 链接地址：Databricks Delta ...

常见问题（FAQ）

客户提供的加密密钥的服务器端加密您可以通过将设置spark.databricks.delta.multiClusterWrites.enabled为来禁用多集群写入false。如果禁用它们，对单个表的写入必须来自单个集群。我可以在Databricks Runtime之外访问Delta表吗？有两种...

文本文件

1,a,10000,11-03-2019,pune 2,b,10020,14-03-2019,pune 3,a,34567,15-03-2019,pune tyui,a,fgh-03-2019,pune 4,b,10020,14-03-2019,pune%spark val path="oss:/databricks-data-source/datas/dataTest.csv"val dtDF=spark.read.textFile...

Notebook-航空公司数据分析示例

读取OSS数据、打印schema，创建TempView Load OSS data%spark val sparkDF=spark.read.format("csv").option("header","true").option("inferSchema","true").load("oss:/databricks-demo-hangzhou/airline_statistic_usa.csv")Print ...

API参考

对于Delta表上最常见的读写操作，可以使用Apache Spark读取器和编写器API（请参阅表批读写和表流读写）。但是，有一些特定于Delta Lake的操作，您必须使用Delta Lake编程API。本文介绍了这些编程API。Databricks确保Delta Lake项目和...

迁移指南

说明详情可参考Databricks官网文章：迁移指南将工作负载迁移到Delta Lake 当您将工作负载迁移到Delta-Lake时，您应该注意到以下简化和与apachespark和apachehive提供的数据源相比的区别。Delta Lake自动处理以下操作，您永远不要手动执行...

约束条件

说明详细内容请参考Databricks官网文章：约束条件注意在Databricks Runtime 7.4及更高版本中可用。Delta表支持标准的SQL约束管理子句，以确保自动验证添加到表中的数据的质量和完整性。当违反约束时，Delta Lake会抛出一个...

CSV文件

spark spark.read.format("csv")1.hearder 选项默认header=false%spark val path="oss:/databricks-data-source/datas/input.csv"val dtDF=spark.read.format("csv").option("mode","FAILFAST").load(path)dtDF.show(5)数据展示 header=...

优化链接性能

Delta Lake on Databricks可优化范围和skew连接。Range连接优化需要根据您的查询模式进行调整，Skew连接可以通过skew提示变得高效。请参阅以下文章以了解如何充分利用这些连接优化：Range Join optimization Skew Join optimization 说明 ...

删除数据开发项目

调用 DeleteFlowProject 接口删除数据开发项目。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String ...

解绑标签

调用UntagResources接口可以为指定的Databricks集群解绑标签。解绑后，如果该标签没有绑定其他任何资源，会被自动删除。请求参数名称类型是否必选示例值描述 Action String 否 TagResource 系统规定参数。对于您自行拼凑HTTP或...

修改数据开发项目

调用 ModifyFlowProject 接口，修改数据开发项目。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String...

表批读写

有关Delta Lake SQL命令的信息，请参见 Databricks Runtime 7.0及更高版本：Databricks Runtime 7.x SQL参考 Databricks Runtime 6.x及以下版本：Databricks Runtime 5.5 LTS和6.x SQL参考建立表格 Delta Lake支持使用DataFrameWriter...

自动优化

手动执行Optimize命令时默认合并的文件大小为1GB，而自动压缩默认产生的文件大小为128MB（最大），可以使用spark conf：spark.databricks.delta.autoCompact.maxFileSize 进行控制；自动压缩会使用贪心算法，选择收益最大的一些partition来...

Bloom过滤器索引

布隆过滤器是一项非常有用的Data-skipping技术。...禁用布隆过滤器索引 Databricks默认启用布隆过滤器索引，如果需要禁用布隆过滤器索引，可以通过设置配置项spark.databricks.io.skipping.bloomFilter.enabled 为false实现。

查询资源标签

调用ListTagResources，查询一个或多个Databricks集群已绑定的标签列表，或者根据一组标签查询被改组标签绑定的资源。调用该接口时注意以下信息：请求中至少指定一个参数：ResourceId.N、Tag.N（Tag.N.Key与Tag.N.Value），以确定查询对象...

创建数据开发作业

Type String 是 SPARK 作业类型，取值如下：SPARK：spark作业，使用spark-submit提交 ZEPPELIN：提交zeppelin notebook，使用该作业类型，作业的params参数为notebook id SPARK_STREAMING：提交spark流处理作业 FailAct String 否 STOP ...

Delta Lake 快速入门

读一个表在这个部分：显示表格历史记录查询表的早期版本（时间行程）您可以通过在DBFS（"/mnt/delta/events"）或表名（"event"）上指定路径来访问Delta表中的数据：Scala%spark SELECT*FROM delta.`/mnt/delta/events` 或%spark val ...

表流读写

说明详细内容请参考Databricks官网文章：表流读写有关演示这些功能的Databricks笔记本，请参阅入门笔记本二。Delta Lake通过readStream和writeStream与Spark结构化流式处理深度集成。Delta Lake克服了许多流式处理系统和文件相关的常见...

克隆作业

返回数据名称类型示例值描述 Id String FJ-06D12BA16419*新产生的作业ID。RequestId String BCE475E4-129D-43D2-8595-C80B80CBC114 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=CloneFlowJob&ProjectId=FP-C62EEC30F773*&Id=FJ...

重命名目录

返回数据名称类型示例值描述 Data Boolean true 返回执行结果，包含如下：true：表示修改成功。false：表示修改失败。RequestId String CEA9AFD2-B340-41F4-A661-8916CBF07C32 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=...

修改数据开发作业

调用ModifyFlowJob接口，修改数据开发作业。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String 是 ...

并发控制

说明详情请参考Databricks官网文章：并发控制。Delta Lake在读取和写入之间提供ACID事务保证。这意味着：跨多个集群的多个编写器可以同时修改表分区，并查看表的一致性快照视图，并且这些写入操作将具有序列顺序。即使在作业过程中修改了...

克隆工作流

返回数据名称类型示例值描述 Id String FJ-3FC8XXXXXDXX00C0 clone得到的新的作业ID RequestId String 0b16392216407604990527735e8d05 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=CloneFlow&ProjectId=FP-A1BE52DDXXXXX3&Id=...

重启集群

数据库访问错误，请重试或者提工单 400 InternalError The request processing has failed due to some unknown error.内部错误，请提工单 400 User.OtherUserResource.NotAllow You are not authorized to operate other users resource....

删除工作流

返回数据名称类型示例值描述 Data Boolean true 返回执行结果，包含如下：true：删除成功。false：删除失败。RequestId String 11BAFBD8-8509-4177-A26D-407505E73713 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=DeleteFlow&...

删除项目用户

返回数据名称类型示例值描述 Data Boolean true 返回执行结果，包含如下：true：删除成功。false：删除失败。RequestId String 243D5A48-96A5-4C0C-8966-93CBF65635ED 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=...

暂停工作流

返回数据名称类型示例值描述 Data Boolean true 返回执行结果。RequestId String B46F8A2A-B46B-415C-8A9C-B01B99B775A2 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=SuspendFlow&RegionId=...

查询数据开发中可用的集群列表

调用ListFlowClusterAll接口，查询数据开发可用的集群列表。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 ...

Java库管理

使用NoteBook引入Java依赖的三种方式 spark.jars spark.jars.packages spark.files 说明用户做好配置之后，在启动spark任务之前（即第一次运行spark、pyspark、sparkR或者sparkSQL相关代码之前）运行spark.conf段落即可对将要启动的spark...