开发者社区大数据文章正文

[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子

2017-12-19 1353

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

sqlContext = HiveContext(sc)

peopleDF = sqlContext.read.json("people.json")

peopleRDD = peopleDF.map(lambda row: (row.pcode,row.name))

peopleRDD.take(5)

Out[5]: 

[(u'94304', u'Alice'),

(u'94304', u'Brayden'),

(u'10036', u'Carla'),

(None, u'Diana'),

(u'94104', u'Etienne')]

peopleByPCode= peopleRDD.groupByKey()

peopleByPCode.take(5)

[(u'10036', <pyspark.resultiterable.ResultIterable at 0x7f0d683a2290>),
(u'94104', <pyspark.resultiterable.ResultIterable at 0x7f0d683a2690>),
(u'94304', <pyspark.resultiterable.ResultIterable at 0x7f0d683a2490>),
(None, <pyspark.resultiterable.ResultIterable at 0x7f0d683a25d0>)]

本文转自健哥的数据花园博客园博客，原文链接：http://www.cnblogs.com/gaojian/p/7636004.html，如需转载请自行联系原作者

文章标签：

Python

分布式计算

Spark

关键词：

Python DataFrame

apache spark Python

apache spark rdd

spark Python dataframe

嗯哼9925

龙大吉

1月前

Python

Python 字典转 dataframe

使用pandas将Python字典转换为DataFrame，需先确保安装pandas（`pip install pandas`）。

龙大吉

18 1 1

使者大牙

2月前

BI 数据处理索引

Pandas基本操作：Series和DataFrame（Python）

使者大牙

110 1 1

桃李春风一杯酒

21天前

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

50 1 1

孙玉洁-47170

2月前

分布式计算并行计算大数据

Spark学习---day02、Spark核心编程（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（一）

Spark学习---day02、Spark核心编程 RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（一）

孙玉洁-47170

77 1 1

孙玉洁-47170

2月前

分布式计算 Java Scala

Spark学习---day03、Spark核心编程（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（二）

孙玉洁-47170

42 1 1

东方睿赢

1天前

Python

使用Python pandas的sort_values()方法可按一个或多个列对DataFrame排序

使用Python pandas的sort_values()方法可按一个或多个列对DataFrame排序。示例代码展示了如何按'Name'和'Age'列排序 DataFrame。先按'Name'排序，再按'Age'排序。sort_values()的by参数接受列名列表，ascending参数控制排序顺序（默认升序），inplace参数决定是否直接修改原DataFrame。

东方睿赢

6 1 1

东方睿赢

1天前

NoSQL Serverless Python

在Python的Pandas中，可以通过直接赋值或使用apply函数在DataFrame添加新列。

在Python的Pandas中，可以通过直接赋值或使用apply函数在DataFrame添加新列。方法一是直接赋值，如`df['C'] = 0`，创建新列C并初始化为0。方法二是应用函数，例如定义`add_column`函数计算A列和B列之和，然后使用`df.apply(add_column, axis=1)`，使C列存储每行A、B列的和。

东方睿赢

11 0 0

4as3qn2go3ure

7天前

新零售分布式计算数据可视化

数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

4as3qn2go3ure

17 0 0

yuanzhengme

2月前

分布式计算 Spark

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

【2月更文挑战第14天】Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

yuanzhengme

32 1 1

yuanzhengme

2月前

分布式计算 Hadoop Java

Spark【基础知识 03】【RDD常用算子详解】（图片来源于网络）

【2月更文挑战第14天】Spark【基础知识 03】【RDD常用算子详解】（图片来源于网络）

yuanzhengme

60 1 1

[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子

热门文章

最新文章

相关课程

相关电子书

相关实验场景