如何将数据集拆分为两个具有唯一和重复行的数据集？

我想在Spark scala Dataframe中获取重复记录。例如，我想根据3列（例如“id”，“name”，“age”）获取重复值。条件部分包含任何列数（动态输入）。基于列值，我想采取重复记录。

以下代码我试过了。我试过的只有一个属性。如果不止一列，我不知道该怎么做。

我的代码：

var s= "age|id|name " // Note- This is dynamic input. so it will increase or decrease
var columnNames= s.replace('|', ',')

val findDuplicateRecordsDF= spark.sql("SELECT * FROM " + dbname + "." + tablename)
findDuplicateRecordsDF.show()
findDuplicateRecordsDF.withColumn("count", count("*")

  .over(Window.partitionBy($"id"))) // here how to add more than one column?(Dynamic input) 
  .where($"count">1)
  .show()

输入数据帧：（findDuplicateRecordsDF.show（））

   --------------------------------------------------------
   |  id   |  name | age |  phone      | email_id          |
   |-------------------------------------------------------|  
   |  3    | sam   | 23  |  9876543210 | sam@yahoo.com     | 
   |  7    | ram   | 27  |  8765432190 | ram@gmail.com     |
   |  3    | sam   | 28  |  9876543210 | sam@yahoo.com     | 
   |  6    | haris | 30  |  6543210777 | haris@gmail.com   |
   |  9    | ram   | 27  |  8765432130 | ram94@gmail.com   |
   |  6    | haris | 24  |  6543210777 | haris@gmail.com   | 
   |  4    | karthi| 26  |  4321066666 | karthi@gmail.com  | 
   --------------------------------------------------------

在这里，我将基于4列（身份证，姓名，电话，电子邮件）获取重复记录。以上是示例数据帧。原始数据框包含任何列数。

输出数据帧应该是

重复记录输出

   --------------------------------------------------------
   |  id   |  name | age |  phone      | email_id          |
   |-------------------------------------------------------|  
   |  3    | sam   | 23  |  9876543210 | sam@yahoo.com     | 
   |  3    | sam   | 28  |  9876543210 | sam@yahoo.com     | 
   |  6    | haris | 30  |  6543210777 | haris@gmail.com   |
   |  6    | haris | 24  |  6543210777 | haris@gmail.com   | 
    --------------------------------------------------------

唯一记录数据框输出：

  --------------------------------------------------------
 |  id   |  name | age |  phone      | email_id          |
 |-------------------------------------------------------|  
 |  7    | ram   | 27  |  8765432190 | ram@gmail.com     |
 |  9    | ram   | 27  |  8765432130 | ram94@gmail.com   |
 |  4    | karthi| 26  |  4321066666 | karthi@gmail.com  | 
  --------------------------------------------------------

scala> df2.show(false)
id	name	age	phone	email_id	cnt
4	karthi	26	4321066666	karthi@gmail.com	1
7	ram	27	8765432190	ram@gmail.com	1
9	ram	27	8765432130	ram94@gmail.com	1
3	sam	23	9876543210	sam@yahoo.com	2
3	sam	28	9876543210	sam@yahoo.com	2
6	haris	30	6543210777	haris@gmail.com	2
6	haris	24	6543210777	haris@gmail.com	2

scala> df2.show(false)

name

age

phone

email_id

cnt

karthi

4321066666

karthi@gmail.com

ram

8765432190

ram@gmail.com

ram

8765432130

ram94@gmail.com

sam

9876543210

sam@yahoo.com

sam

9876543210

sam@yahoo.com

haris

6543210777

haris@gmail.com

haris

6543210777

haris@gmail.com

scala> spark.sql("select " + dup_cols.mkString(",") + " from contact2 where cnt = 2").show
id	name	phone	email_id
3	sam	9876543210	sam@yahoo.com
3	sam	9876543210	sam@yahoo.com
6	haris	6543210777	haris@gmail.com
6	haris	6543210777	haris@gmail.com

scala> spark.sql("select " + dup_cols.mkString(",") + " from contact2 where cnt = 2").show

name

phone

email_id

sam

9876543210

sam@yahoo.com

sam

9876543210

sam@yahoo.com

haris

6543210777

haris@gmail.com

haris

6543210777

haris@gmail.com

scala> spark.sql("select " + dup_cols.mkString(",") + " from contact2 where cnt = 1").show
id	name	phone	email_id
4	karthi	4321066666	karthi@gmail.com
7	ram	8765432190	ram@gmail.com
9	ram	8765432130	ram94@gmail.com

scala> spark.sql("select " + dup_cols.mkString(",") + " from contact2 where cnt = 1").show

name

phone

email_id

karthi

4321066666

karthi@gmail.com

ram

8765432190

ram@gmail.com

ram

8765432130

ram94@gmail.com

如何将数据集拆分为两个具有唯一和重复行的数据集？

相关文章

相关电子书