numpy转dataframe-numpy转dataframe文档介绍内容-移动阿里云

开发PyODPS 2任务

非自定义函数代码可以使用平台预装的Numpy和Pandas。不支持其他带有二进制代码的三方包。由于兼容性原因，在DataWorks中，options.tunnel.use_instance_tunnel 默认设置为False。如果需要全局开启 instance tunnel，需要手动将该值设置为...

Python SDK示例：DataFrame

本文为您介绍Python SDK中DataFrame相关的典型场景操作示例。DataFrame PyODPS提供了DataFrame API，它提供了类似Pandas的接口，但是能充分利用MaxCompute的计算能力。完整的DataFrame文档请参见 DataFrame。假设已经存在三张表，分别是 ...

开发PyODPS 3任务

非自定义函数代码可以使用平台预装的Numpy和Pandas。不支持其他带有二进制代码的三方包。由于兼容性原因，在DataWorks中，options.tunnel.use_instance_tunnel 默认设置为False。如果需要全局开启 instance tunnel，需要手动将该值设置为...

开发PyODPS 3任务

非自定义函数代码可以使用平台预装的Numpy和Pandas。不支持其他带有二进制代码的三方包。由于兼容性原因，在DataWorks中，options.tunnel.use_instance_tunnel 默认设置为False。如果需要全局开启 instance tunnel，需要手动将该值设置为...

Delta Lake 快速入门

对于所有文件类型，您将文件读入DataFrame并将格式转为delta：Python%pyspark events=spark.read.json("/xz/events_data.json")events.write.format("delta").save("/xz/delta/events")spark.sql("CREATE TABLE events USING DELTA ...

UDF示例：Python UDF使用第三方包

MaxCompute支持您在Python UDF中引用第三方包，例如Numpy包、需要编译的第三方包或依赖动态链接库的第三方包。本文为您介绍如何通过Python UDF引用第三方包。背景信息通过Python UDF使用第三方包支持的场景如下：使用Numpy包（Python 3 ...

Python SDK常见问题

iris=DataFrame(o.get_table('pyodps_iris'))在DataFrame上执行Count获取DataFrame的总行数。iris.count()由于DataFrame上的操作并不会立即执行，只有当用户显式调用Execute方法或者立即执行的方法时，才会真正执行。此时为了防止Count方法...

In[1]:df=o.to_mars_dataframe('test_mars')In[2]:df.head(6).execute()Out[2]:col1 col2 0 0 0 1 0 1 2 0 2 3 1 0 4 1 1 5 1 2 写表通过 o.persist_mars_dataframe(df,'table_name')将Mars DataFrame保存为MaxCompute表。In[3]:df=o.to_...

MongoDB 5.0新特性概览

PyMongoArrow可以快速将简单的MongoDB查询结果转换为流行的数据格式（例如Pandas数据框架和NumPy数组），帮助您简化数据科学工作流程。Schema验证改进 Schema验证（模式验证）是对MongoDB进行数据应用管理控制的一种方式。MongoDB 5.0中，...

保存联邦表

函数路径 fascia.biz.api.dataframe.save_fed_dataframe 函数定义 def save_fed_dataframe(fed_df:HDataFrame,uid:str=None,file_uri:Union[str,Dict]=None)请求参数名称描述类型是否必选描述 fed_df HDataFrame 必选待保存的联邦表。...

创建联邦表

函数路径 fascia.biz.api.dataframe.create_fed_dataframe 函数定义 def create_fed_dataframe(uid='${UID}',data_partitions=[${DATA_PARTITIONS}],filter_columns=[${FILTER_COLUMNS}])请求参数名称类型是否必选描述 uid String 必选...

Spark SQL、Dataset和DataFrame基础操作

本文为您介绍Spark SQL、Dataset和DataFrame相关的概念，以及Spark SQL的基础操作。Spark SQL、Dataset和DataFrame介绍 Spark SQL是一个用于结构化数据处理的Spark模块，与基本的Spark RDD的API不同，Spark SQL的接口还提供了更多关于数据...

绘图

本文为您介绍PyODPS DataFrame提供的绘图方法。如果您需要使用绘图功能，请先安装Pandas和Matplotlib。您可以在Jupyter中运行以下示例代码，并使用 pip install matplotlib 命令安装Matplotlib。绘图单线图>>>from odps.df import ...

快速入门

本文以具体数据及开发场景为例，为您介绍在DataWorks数据开发的PyODPS 3节点中，如何创建和操作MaxFrame中的DataFrame对象，以及使用DataFrame完成基本的数据处理，帮助您在十分钟内快速使用MaxFrame进行开发。数据准备本文以 movielens ...

数据集拆分

函数路径 fascia.data.horizontal.dataframe.train_test_split 函数定义 def train_test_split(data:HDataFrame,ratio:float,random_state:int=None,shuffle:bool=True)->(HDataFrame,HDataFrame):参数参数类型描述 data HDataFrame 待...

使用自定义函数及Python第三方库

使用自定义函数 DataFrame函数支持对Sequence使用 map，它会对它的每个元素调用自定义函数。iris.sepallength.map(lambda x:x+1).head(5)sepallength 0 6.1 1 5.9 2 5.7 3 5.6 4 6.0 说明目前，自定义函数无法支持将List/Dict类型作为输入...

MTable聚合

import numpy as np import pandas as pd from pyalink.alink import*df_data=pd.DataFrame([["a1","11L",2.2],["a1","12L",2.0],["a2","11L",2.0],["a2","12L",2.0],["a3","12L",2.0],["a3","13L",2.0],["a4","13L",2.0],["a4","14L",2.0]...

调试指南

由于PyODPS DataFrame本身会对整个操作执行优化，为了更直观地反应整个过程，您可以使用可视化的方式显示整个表达式的计算过程。可视化DataFrame 可视化需要依赖 graphviz软件和 graphviz Python包。df=iris.groupby('name').agg(id=iris....

PyODPS概述

功能介绍 PyODPS应用场景请参见：DataFrame操作：DataFrame快速入门。读取分区表数据：PyODPS读取分区表数据。参数传递：PyODPS参数传递。使用第三方包：PyODPS使用第三方包。查看一级分区：PyODPS查看一级分区。条件查询：PyODPS条件查询...

MTable展开

import numpy as np import pandas as pd from pyalink.alink import*df_data=pd.DataFrame([["a1","11L",2.2],["a1","12L",2.0],["a2","11L",2.0],["a2","12L",2.0],["a3","12L",2.0],["a3","13L",2.0],["a4","13L",2.0],["a4","14L",2.0]...

快速入门

本文为您介绍如何创建和操作DataFrame对象，以及使用DataFrame完成基本的数据处理。数据准备本文将以 movielens 100K 进行举例，下载ml-100k.zip到本地。其中u.user是用户相关的数据，u.item是电影相关的数据，u.data是评分有关的数据。...

Python SDK示例：Configuration

True df.optimizes.pp 是否开启DataFrame谓词下推优化 True df.optimizes.cp 是否开启DataFrame列剪裁优化 True df.optimizes.tunnel 是否开启DataFrame使用Tunnel优化执行 True df.quote MaxCompute SQL后端是否用 `` 来标记字段和表名 ...

准备工作

session(o)df=md.read_odps_table("test_source_table",index_col="b")df["a"]="prefix_"+df["a"]#打印dataframe数据 print(df.execute().fetch())#MaxFrame DataFrame数据写入MaxCompute表 md.to_odps_table(df,"test_prefix_source_table...

PySpark基础操作

您可以通过PySpark提供的DataFrame接口，完成各种计算逻辑。本文为您介绍PySpark的基础操作。操作步骤通过SSH方式连接集群，详情请参见登录集群。执行以下命令，进入PySpark交互式环境。pyspark 更多命令行参数请执行 pyspark-help 查看...

GeoMesa(HBase/Cassandra)

val dataFrame=spark.read.format("ganos-geometry").options(params).option("ganos.feature","testpoints").load()dataFrame.createOrReplaceTempView("testpoints")/创建SQL查询。val points=spark.sql("select*from testpoints where ...

Python组件常用SDK

None：返回dict dataFrame：返回DataFrame sample_period 采样周期（单位：秒），表示返回的DataFrame数据的时间间隔。例如：sample_period="5"，表示每隔5s返回一条数据。默认为None。说明 data_type为None时可以不传当前参数；data_type...

使用PyODPS读写MaxCompute表

import numpy as np import pandas as pd import os from odps import ODPS from odps.df import DataFrame#建立链接。o=ODPS(os.getenv('ALIBABA_CLOUD_ACCESS_KEY_ID'),os.getenv('ALIBABA_CLOUD_ACCESS_KEY_SECRET'),project='your-...

内置镜像

MaxCompute提供丰富的内置镜像，如数据分析、科学计算、机器学习（如Pandas、Numpy、Scikit-learn、Xgboost）等，方便您在后续开发中直接引用，从而简化开发流程。本文为您介绍如何查看及使用内置镜像。查看内置镜像登录 MaxCompute控制台...

数据合并

本文向您介绍DataFrame支持的数据表的JOIN操作、UNION操作等数据合并操作。前提条件您需要提前导入以下示例表数据，用于操作本文中的示例，其中示例源数据下载请参见快速入门，使用到的两个示例表结构如下。from odps.df import ...

PyODPS API概述

本文为您提供了PyODPS API文档链接，其中包含各函数的参数说明及示例。ODPS详解（Definitions）PyODPS DataFrame指南（DataFrame Reference）

在本地环境上使用PyODPS

from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))for record in iris[iris.sepalwidth].execute():print(record)打印详细信息默认情况下，本地环境的PyODPS节点运行过程不会打印Logview等详细过程。您可以手动...

读取联邦表

函数路径 fascia.biz.api.dataframe.read_fed_table 函数定义 def read_fed_table(fed_table)->HDataFrame:参数 fed_table：待读取的联邦表，对应为输入配置的联邦表占位符。示例 from fascia.biz.api.dataframe import read_fed_table df=...

通过DataWorks使用PyODPS

from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))for record in iris[iris.sepalwidth].execute():print(record)打印详细信息在DataWorks上默认打开 options.verbose 选项，即默认情况下，DataWorks的PyODPS...

PyODPS常见问题

iris=DataFrame(o.get_table('pyodps_iris'))在DataFrame上执行Count获取DataFrame的总行数。iris.count()由于DataFrame上的操作并不会立即执行，只有当用户显式调用Execute方法或者立即执行的方法时，才会真正执行。此时为了防止Count方法...

排序、去重、采样、数据变换

您可以对DataFrame对象执行排序、去重、采样、数据变换操作。前提条件您需要提前完成以下步骤，用于操作本文中的示例：准备示例表 pyodps_iris，详情请参见 Dataframe数据处理。创建DataFrame。from odps.df import DataFrame iris=...

PySpark任务快速入门

说明 DataFrame.py文件是一段使用Apache Spark框架进行OSS上数据处理的代码。employee.csv文件中定义了一个包含员工姓名、部门和薪水的数据列表。步骤二：上传测试文件上传Python文件到EMR Serverless Spark。进入任务开发页面。登录 E-...

迁移指南

另存为Delta表将数据读入DataFrame并将其保存为以下delta格式的新目录：Python%pyspark data=spark.read.parquet("/data-pipeline")data.write.format("delta").save("/mnt/delta/data-pipeline/")创建一个Delta表events，该表引用Delta ...

开源支持

PyODPS提供了DataFrame API，详情请参见 PyODPS DataFrame概述。欢迎您在GitHub aliyun-odps-python-sdk 反馈问题和需求，加快PyODPS生态成长。服务支持方式：您可通过访问官方文档获取支持。MaxCompute RODPS MaxCompute R语言插件：RODPS...

GeoTools

DLA Ganos内置了GeoTools数据驱动。任何兼容GeoTools数据访问接口的存储系统都可以作为DLA Ganos矢量数据源，如PostGIS、GeoMesa等。...geometry").options(params).option("ganos.feature","AIS").load()dataFrame.show 输出结果如下：

通用WebSocket接入指南

心跳包回执消息协议：消息内容：4 消息格式：Text类型的DataFrame（字符串，编码：UTF-8）重要心跳包发送间隔建议设置为30s发送一次，服务端最长60s收不到客户端发送的消息就会主动断开客户端的连接，客户端发送业务消息和心跳消息都会...