spark 网络不稳定

_相关内容

常见问题(FAQ)

客户提供的加密密钥的服务器端加密 您可以通过将设置spark.databricks.delta.multiClusterWrites.enabled为来禁用多集群写入false。如果禁用它们,对单个表的写入必须来自单个集群。我可以在Databricks Runtime之外访问Delta表吗?有两种...

ReleaseCluster

返回数据 名称 类型 示例值 描述 RequestId String BF4FBAC6-B03E-4BFB-B6DB-EB53C34F2E22 请求ID。示例 请求示例 http(s):/[Endpoint]/?Action=ReleaseCluster&RegionId=cn-hangzhou &Id=C-D7958B72E59B*&ForceRelease=true&公共请求参数 ...

Tablestore

本文介绍如何使用Databricks 读写Tablestore数据。前提条件 已创建 Tablestore实例 通过主账号登录 阿里云 Databricks控制台。已创建DDI集群,具体请参见 DDI集群创建。创建集群并通过knox账号访问NoteBook。使用Databricks 读写Tablestore...

机器学习开发示例

本文介绍如何使用阿里云 Databricks 数据洞察的Notebook进行机器学习开发。前提条件 通过主账号登录 阿里云 Databricks控制台。已创建集群,具体请参见 创建集群。已使用OSS管理控制台创建 非系统目录存储空间,详情请参见 控制台创建存储...

API参考

对于Delta表上最常见的读写操作,可以使用Apache Spark读取器和编写器API(请参阅 表批读写 和 表流读写)。但是,有一些特定于Delta Lake的操作,您必须使用Delta Lake编程API。本文介绍了这些编程API。Databricks确保Delta Lake项目和...

表批读写

有关Delta Lake SQL命令的信息,请参见 Databricks Runtime 7.0及更高版本:Databricks Runtime 7.x SQL参考 Databricks Runtime 6.x及以下版本:Databricks Runtime 5.5 LTS和6.x SQL参考 建立表格 Delta Lake支持使用DataFrameWriter...

OSS

本文介绍如何使用Databricks 读写 OSS文件系统数据。前提条件 通过主账号登录 阿里云 Databricks控制台。已创建集群,具体请参见 创建集群。已使用OSS管理控制台创建 非系统目录存储空间,详情请参见 创建存储空间。警告 首次使用DDI产品...

Delta Lake 快速开始一

步骤二:创建Notebook、导入数据、进行数据分析 定义Notebook中使用的路径path%pyspark#注意需要将数据文件events.json上传至您的OSS对应bucket下,events.json数据来源Databricks站点的open/close数据 inputPath="oss:/databricks-...

通过文件管理优化性能

可以通过将 Spark 会话配置 spark.databricks.delta.stalenessLimit 设置为时间字符串值(例如 1h、15m、1d 分别为 1 小时、15 分钟和 1 天)来配置表数据的过时程度。此配置是特定session,因此不会影响其他用户从其他笔记本、作业或BI...

创建工作流

返回数据 名称 类型 示例值 描述 Id String F-7A39731FE719*新创建的工作流ID。RequestId String 243D5A48-96A5-4C0C-8966-93CBF65635ED 请求ID。示例 请求示例 http(s):/[Endpoint]/?Action=CreateFlow&RegionId=...

表实用程序命令

如果您确定在此表上执行的操作没有超过计划指定的保留时间间隔,你可以通过设置ApacheSpark属性spark.databricks.delta.retentionDurationCheck.enabled设置为false来关闭此安全检查。选择的时间间隔,必须比最长的并发事务长,也必须比...

ListClusters

返回数据 名称 类型 示例值 描述 PageSize Integer 10 分页大小。RequestId String BF4FBAC6-B03E-4BFB-B6DB-EB53C34F2E22 请求ID。PageNumber Integer 1 分页页数。TotalCount Integer 12 查询总数。Clusters Array of ClusterInfo 集群...

获取目录树

Keyword String 否 SQL 检索关键字 CategoryId String 否 FC-5BD9575E3462*STEP模式下:上级目录id,获取根目录id时设置 LOCATION模式下:需要定位的目录id 返回数据 名称 类型 示例值 描述 Data String {"node":{"categoryType":"FOLDER...

创建数据开发作业

Type String 是 SPARK 作业类型,取值如下:SPARKspark作业,使用spark-submit提交 ZEPPELIN:提交zeppelin notebook,使用该作业类型,作业的params参数为notebook id SPARK_STREAMING:提交spark流处理作业 FailAct String 否 STOP ...

DescribeClusterV2

NetType String vpc 集群网络类型。Period Integer 36 机器组的包年包月时间(包月数有1、2、3、4、5、6、7、8、9、12、24、36)。RegionId String cn-hangzhou 地域ID。RelateClusterId String C-D7958B72E59*针对Gateway,关联的主集群ID...

工作流调度Zeppelin Notebook

Databricks数据开发中,您可以在项目空间的作业编辑中创建一组有依赖的 Zeppelin 作业,然后创建工作流,按照依赖次序定义执行顺序,Databricks工作流支持基于有向无环(DAG)并行执行大数据作业。前提条件 通过主账号登录 阿里云 ...

JSON文件

{"key":"value3","extra_key":"extra_value3"}} 数据读取%spark val path="oss:/databricks-data-source/datas/example.json"val data_json=spark.read.format("json").load(path)data_json.show()data_json.printSchema()2.添加mode,...

Parquet(推荐)

读取Parquet数据%spark val inputPath="oss:/databricks-data-source/datas/parquet_data"val dtDF=spark.read.format("parquet").option("mode","FAILFAST").load(inputPath)dtDF.show(3)dtDF.printSchema()SQL 方式%sql CREATE TABLE ...

签名机制

参数排序 按照参数名称的字典顺序对请求中所有的请求参数(包括“公共请求参数”和接口的自定义参数,但能包括“公共请求参数”中提到的 Signature 参数本身)进行排序。重要 当使用 GET 方法提交请求时,这些参数就是请求 URI 中的参数...

迁移指南

说明 详情可参考Databricks官网文章:迁移指南 将工作负载迁移到Delta Lake 当您将工作负载迁移到Delta-Lake时,您应该注意到以下简化和与apachespark和apachehive提供的数据源相比的区别。Delta Lake自动处理以下操作,您永远不要手动执行...

ORC文件

读取orc数据%spark val inputPath="oss:/databricks-data-source/datas/orc_data"val dataDF=spark.read.format("orc").option("header","true").option("inferSchema","true").option("mode","FAILFAST").load(inputPath)dataDF.show(3)...

表删除,更新和合并

要在使用updateAll和insertAll(至少其中一个)执行merge操作期间自动更新表架构,可以在运行merge操作之前设置Spark会话配置spark.databricks.delta.schema.autoMerge.enabled为true。说明 架构演变仅在同时存在一个updateAll或一个...

JindoFS

本文介绍如何使用Databricks 读写JindoFS数据数据。前提条件 通过主账号登录 阿里云 Databricks控制台。已创建 EMR集群,具体参见 EMR集群创建 已创建DDI集群,具体请参见 DDI集群创建。创建集群并通过knox账号访问NoteBook。重要 版本...

文本文件

警告 首次使用DDI产品创建的Bucket为系统目录Bucket,建议存放数据,您需要再创建一个Bucket来读写数据。说明 DDI访问OSS路径结构:oss:/BucketName/Object BucketName 为您的存储空间名称。Object 为上传到OSS上的文件的访问路径。例:...

Notebook-航空公司数据分析示例

读取OSS数据、打印schema,创建TempView Load OSS data%spark val sparkDF=spark.read.format("csv").option("header","true").option("inferSchema","true").load("oss:/databricks-demo-hangzhou/airline_statistic_usa.csv")Print ...

表流读写

说明 详细内容请参考Databricks官网文章:表流读写 有关演示这些功能的Databricks笔记本,请参阅 入门笔记本二。Delta Lake通过readStream和writeStream与Spark结构化流式处理深度集成。Delta Lake克服了许多流式处理系统和文件相关的常见...

使用OPTIMIZE和Z-ORDER优化商品库存查询性能

步骤二:创建Notebook、导入数据、进行数据分析%pyspark#将csv文件转化为parquet格式#注意文件读取和保存的路径请按照您的oss路径进行配置 spark.read.option("header","true")\.csv("oss:/databricks-demo/online_retail.csv")\.select(...

查询作业列表

Job Type String SPARK 作业的类型,可能的取值有:SPARKSPARK_STREAMING,ZEPPELIN FailAct String STOP 失败策略,可能的取值:CONTINUE(提过本次作业),STOP(停止作业)CustomVariables String {"scope":"project"} 自定义变量。...

自动优化

手动执行Optimize命令时默认合并的文件大小为1GB,而自动压缩默认产生的文件大小为128MB(最大),可以使用spark conf:spark.databricks.delta.autoCompact.maxFileSize 进行控制;自动压缩会使用贪心算法,选择收益最大的一些partition来...

Delta Lake 快速入门

读一个表 在这个部分:显示表格历史记录 查询表的早期版本(时间行程)您可以通过在DBFS("/mnt/delta/events")或表名("event")上指定路径来访问Delta表中的数据:Scala%spark SELECT*FROM delta.`/mnt/delta/events` 或%spark val ...

Bloom过滤器索引

布隆过滤器是一项非常有用的Data-skipping技术。...禁用布隆过滤器索引 Databricks默认启用布隆过滤器索引,如果需要禁用布隆过滤器索引,可以通过设置配置项spark.databricks.io.skipping.bloomFilter.enabled 为false实现。

查询作业运行实例列表

JobType String 否 SPARK 作业的类型,可能的取值有:SPARKSPARK_STREAMING,ZEPPELIN InstanceId String 否 FJI-BCCAE48B90CC*作业实例ID。您可以调用DescribeFlowJob查看作业实例ID。TimeRange String 否 {"type":"range","from":...

工作流使用案例

Databricks数据开发中,您可以在项目空间的作业编辑中创建一组有依赖的作业,然后创建工作流,按照依赖次序定义执行顺序,Databricks工作流支持基于有向无环(DAG)并行执行大数据作业。前提条件 通过主账号登录 阿里云 Databricks控制台...

查询作业信息

返回数据 名称 类型 示例值 描述 Type String SPARK 作业的类型,可能的取值有:SPARKSPARK_STREAMING,ZEPPELIN LastInstanceId String FJI-0BA97D0BB8F3*最后一次执行的实例ID。EnvConf String {"key":"value"} 环境变量设置。...

修改数据开发作业

调用ModifyFlowJob接口,修改数据开发作业。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action String 是 ...

查询工作流实例列表

StatusList.N String 否 RUNNING 工作流状态:PREP:准备中 RUNNING:运行中 SUCCEEDED:成功 FAILED:失败 KILLED:已终止 SUSPENDED:暂停中 返回数据 名称 类型 示例值 描述 RequestId String EDF99BA3-F7AF-49B2-ABA1-36430A31F482 ...

并发控制

说明 详情请参考Databricks官网文章:并发控制。Delta Lake在读取和写入之间提供ACID事务保证。这意味着:跨多个集群的多个编写器可以同时修改表分区,并查看表的一致性快照视图,并且这些写入操作将具有序列顺序。即使在作业过程中修改了...

查询节点实例详情

返回数据 名称 类型 示例值 描述 Status String OK 实例的执行状态,取值如下:PREP(等待启动)SUBMITTING(提交中)RUNNING(运行中)DONE(已完成)OK(执行成功)FAILED(执行失败)KILLED(已终止)KILL_FAILED(终止失败)START_...

公共参数

公共请求参数是指每个接口都需要使用到的请求参数。...返回结果数据->接口名称+Response>JSON示例:{"RequestId":"4C467B38-3910-447D-87BC-AC049166F216",/*返回结果数据*/}$icmsDocProps={'productMethod':'created','language':'zh-CN',};

修改工作流

返回数据 名称 类型 示例值 描述 Data Boolean true 返回执行结果,包含如下:true:成功 false:失败 RequestId String 243D5A48-96A5-4C0C-8966-93CBF65635ED 请求ID。示例 请求示例 http(s):/[Endpoint]/?Action=ModifyFlowForWeb&...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用