SparkML机器学习之特征工程(一)特征提取(TF-IDF、Word2Vec、CountVectorizer)

简介:

特征工程

我们都知道特征工程在机器学习中是很重要的,然而特征工程到底是什么?怎么样通俗的理解它呢?打个比方,即使你有再好的渔具,如果给你一片没有鱼的池塘,那也是白费力气的。而特征工程就是找有鱼的那片水域。所以我们可以这么理解,特征是数据中抽取出来的对结果预测有用的信息(水域),而特征工程就是使用专业知识来处理数据,筛选出具有价值的特征(从100个水域中挑选出鱼最多最好的水域)。所以有句话是这么说的:算法再牛逼,其上限也是由特征工程决定的,就像你渔具再好,捕鱼多少也是由水域这个特征决定的。
在SparkML中、对于特征工程的操作主要分为特征提取,特征转化、特征选择

特征提取

从原始数据中提取特征

TF-IDF (Term frequency-inverse document frequency)

TF-IDF称为词频-逆文件频率,先搞清楚它有什么作用吧!很经典的一个问题,如何得到一篇文章的关键词??大家都能想到,看看这篇文章什么词出现最多!思路是没问题,但是,一篇文章,出现最多的,应该都是诸如“的”之类的停用词吧?这就没意义了啊!那就把这些停用词过滤掉呗,这样还是会出问题。比如一篇文章,叫做中国功夫,中国和功夫出现了同样多次数,可是显而易见,该文重点应该是功夫。而出现问题的原因,是因为中国是个热门词。这让我想到我曾写过的基于物品的协同过滤算法,也是要将热门物品做一个惩罚,否则会导致推荐不精确。
image.png
TF-IDF完美的解决了这个问题,TF-IDF作用就是体现一个文档中词语重要程度。TF是某个词或短语在一篇文章中出现的频率。而IDF,就是一种对热门词语的惩罚,对于较热门词语比如"中国"会给予较小的权重,较少见的词“功夫”给予较大的权重。至于如何判断它是否为热门词,则通过该词在整个语料库的出现次数决定。比如中国这个词,语料库一共1000篇文章他就出现了100次,自然为热门词,而功夫,1000篇文章只有1篇出现了,那就为冷门词了。
image.png
image.png

package ml.test
import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}
import org.apache.spark.sql.SparkSession
/**
  * Created by LYL on 2018/4/4.
  */
object TFDemo {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("TF-IDF Demo").master("local").getOrCreate()
    val sentenceData = spark.createDataFrame(Seq(
      (0.0, "china kungfu kungfu is good"),
      (1.0, "I lova china"),
      (2.0, "I love china shenzhen")
    )).toDF("label", "sentence")
    //Tokenizer分词器 将句子分成单词
    val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")
    val wordsData = tokenizer.transform(sentenceData)
    //将每个词转换成Int型,并计算其在文档中的词频(TF)
    //setNumFeatures(200)表示将Hash分桶的数量设置为200个,可以根据你的词语数量来调整,一般来说,这个值越大不同的词被计算为一个Hash值的概率就越小,数据也更准确,但需要消耗更大的内存
    val hashingTF = new HashingTF().setInputCol("words").setOutputCol("TF Features").setNumFeatures(200)
    val featurizedData = hashingTF.transform(wordsData)
    //计算IDF
    val idf = new IDF().setInputCol("TF Features").setOutputCol("TF-IDF features")
    val idfModel = idf.fit(featurizedData)
    val rescaledData = idfModel.transform(featurizedData)
    rescaledData.select("words","TF Features","TF-IDF features")show(false)
  }
}

输出结果为:
由于china在三个文档中都出现了,所以TF-IDF=0.0,而kungfu只在第一个文档出现(说明是冷门词),却是第一个文档中出现次数最多的,因此计算出来的TF-IDF=1.3862943611198906也是最高的

+---------------------------------+----------------------------------------+---------------------------------------------------------------------------------------+
|words                            |TF Features                             |TF-IDF features                                                                        |
+---------------------------------+----------------------------------------+---------------------------------------------------------------------------------------+
|[china, kungfu, kungfu, is, good]|(200,[81,168,169,198],[1.0,1.0,1.0,2.0])|(200,[81,168,169,198],[0.6931471805599453,0.28768207245178085,0.0,1.3862943611198906]) |
|[i, lova, china]                 |(200,[91,129,169],[1.0,1.0,1.0])        |(200,[91,129,169],[0.6931471805599453,0.28768207245178085,0.0])                        |
|[i, love, china, shenzhen]       |(200,[40,129,168,169],[1.0,1.0,1.0,1.0])|(200,[40,129,168,169],[0.6931471805599453,0.28768207245178085,0.28768207245178085,0.0])|
+---------------------------------+----------------------------------------+---------------------------------------------------------------------------------------+

Word2Vec

word2vec是用一个向量去表示一个对象(因为计算机是无法识别对象实体的),对象可以是单词,句子,文章,用户等等。然后基于向量相似度去计算对象的相似度,找到相关的对象,发现相关关系,可以用来做分类、聚类、也可以做词的相似度计算。应用非常广泛,比如:相关词(搜索乔布斯会出来苹果),补全句子中缺失的单词,推荐系统,分析用户关系等等。

object Word2VecDemo {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().master("local[2]").appName("Word2VecDemo").getOrCreate()
    val documentDF = spark.createDataFrame(Seq(
      "Hi I love Spark".split(" "),
      "Hi I love java".split(" "),
      "Logistic regression models are neat".split(" ")
    ).map(Tuple1.apply)).toDF("text")
    // setVectorSize 目标数值向量的维度大小 setMinCount 只有当某个词出现的次数大于或者等于 minCount 时,才会被包含到词汇表里,否则会被忽略掉
    val word2Vec = new Word2Vec()
      .setInputCol("text")
      .setOutputCol("result")
      .setVectorSize(3)
      .setMinCount(0)
    val model = word2Vec.fit(documentDF)
    //​利用Word2VecModel把文档转变成特征向量。
    val result = model.transform(documentDF)
    result.show(false)
  }
}

输出结果为:

+-----------------------------------------+-------------------------------------------------------------------+
|text                                     |result                                                             |
+-----------------------------------------+-------------------------------------------------------------------+
|[Hi, I, love, Spark]                     |[-0.03605498746037483,-0.02823249064385891,0.06127407215535641]    |
|[Hi, I, love, java]                      |[-0.046827200800180435,-0.052235052920877934,0.0025074686855077744]|
|[Logistic, regression, models, are, neat]|[0.04324783757328987,0.030185341089963916,-5.047338083386422E-4]   |
+-----------------------------------------+-------------------------------------------------------------------+

CountVectorizer

由于计算机是不能识别单词的,所以我们要把它转为向量。Countvectorizer和Countvectorizermodel旨在通过计数来将一个文档转换为向量。

object CountVectorizerDemo {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().master("local[2]").getOrCreate()
    val dataFrame = spark.createDataFrame(Seq(
      (0, Array("a", "b","b","c","d","d")),
      (1, Array("a","c","b" ))
    )).toDF("id", "words")

    //setVocabSize设定词汇表的最大容量为3,setMinDF设定词汇表中的词至少要在2个文档中出现过。
    //如果setMinDF=2 那么就不会出现d(只在一个文档存在)了。
    val cv = new CountVectorizer().setVocabSize(3).setMinDF(2).setInputCol("words").setOutputCol("features")
    //如果setVocabSize=2 那么就不会出现a,c(次数少)了。
    val cv1 = new CountVectorizer().setVocabSize(2).setInputCol("words").setOutputCol("features")

    val cvModel = cv.fit(dataFrame)
    val cvModel1 = cv1.fit(dataFrame)

    cvModel.transform(dataFrame).show(truncate = false)
    cvModel1.transform(dataFrame).show(truncate = false)

  }
}

输出结果为:

//3代表词汇表的容量,[0,1,2]分别对应b,a,c,[2.0,1.0,1.0]代表出现次数
+---+------------------+-------------------------+
|id |words             |features                 |
+---+------------------+-------------------------+
|0  |[a, b, b, c, d, d]|(3,[0,1,2],[2.0,1.0,1.0])|
|1  |[a, c, b]         |(3,[0,1,2],[1.0,1.0,1.0])|
+---+------------------+-------------------------+


+---+------------------+-------------------+
|id |words             |features           |
+---+------------------+-------------------+
|0  |[a, b, b, c, d, d]|(2,[0,1],[2.0,2.0])|
|1  |[a, c, b]         |(2,[0],[1.0])      |
+---+------------------+-------------------+
相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【Python机器学习】文本特征提取及文本向量化讲解和实战(图文解释 附源码)
【Python机器学习】文本特征提取及文本向量化讲解和实战(图文解释 附源码)
95 0
|
8天前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型:从特征工程到模型调优
【4月更文挑战第16天】 在数据驱动的时代,机器学习已成为解决复杂问题的关键工具。本文旨在分享一套实用的技术流程,帮助读者构建高效的机器学习模型。我们将重点讨论特征工程的重要性、选择合适算法的策略,以及通过交叉验证和网格搜索进行模型调优的方法。文章的目标是为初学者提供一个清晰的指南,同时为有经验的实践者提供一些高级技巧。
|
20天前
|
机器学习/深度学习 算法 数据挖掘
构建高效机器学习模型:从特征工程到模型调优
【4月更文挑战第4天】在数据驱动的时代,构建一个高效的机器学习模型是解决复杂问题的关键。本文将深入探讨特征工程的重要性,并分享如何通过自动化技术进行特征选择与构造。接着,我们将讨论不同的机器学习算法及其适用场景,并提供模型训练、验证和测试的最佳实践。最后,文章将展示如何使用网格搜索和交叉验证来微调模型参数,以达到最优性能。读者将获得一套完整的指南,用以提升机器学习项目的预测准确率和泛化能力。
|
1月前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型:从特征工程到模型调优
【2月更文挑战第23天】 在机器学习领域,构建一个高效的模型不仅需要选择合适的算法,还涉及到一系列的数据处理和模型优化过程。本文将深入探讨如何通过特征工程提升数据质量,以及如何调整模型参数以达到最优性能。我们将讨论包括数据清洗、特征选择、维度缩减在内的特征工程技术,并探索网格搜索、随机搜索和贝叶斯优化等模型调优方法。通过实践案例分析,本文旨在为读者提供一套系统的方法论,以指导他们在构建机器学习模型时做出明智的决策。
26 0
|
1月前
|
机器学习/深度学习 数据采集 传感器
【机器学习】特征工程之特征选择
【机器学习】特征工程之特征选择
42 2
|
4月前
|
机器学习/深度学习 数据采集 算法
【Python机器学习】特征工程含义、方法、对应函数详解(图文解释)
【Python机器学习】特征工程含义、方法、对应函数详解(图文解释)
57 0
|
4月前
|
机器学习/深度学习 数据采集 自然语言处理
【机器学习】采集数据、特征工程、建立模型、应用四个阶段的详解(图文解释 超详细)
【机器学习】采集数据、特征工程、建立模型、应用四个阶段的详解(图文解释 超详细)
215 0
|
5月前
|
机器学习/深度学习 算法 数据可视化
机器学习面试笔试之特征工程、优化方法、降维、模型评估2
机器学习面试笔试之特征工程、优化方法、降维、模型评估
76 0
|
1月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
|
21天前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)