01 面向就业的人工智能学习概述-阿里云开发者社区

01 面向就业的人工智能学习概述

2018-09-20 1384

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 相信很多人对于AI的作用以及将来工作的方式存在很多疑问，这里简单得和大家分享一下我的一些心得。实际上在之前Python-科学计算库当中涉及到的模块，比如numpy基础建模、pandas数据处理、matplotlib统计绘图，都是为机器学习打基础的。

相信很多人对于AI的作用以及将来工作的方式存在很多疑问，这里简单得和大家分享一下我的一些心得。

实际上在之前Python-科学计算库当中涉及到的模块，比如numpy基础建模、pandas数据处理、matplotlib统计绘图，都是为机器学习打基础的。让大家初步得了解了一下机器学习或人工智能领域中需要接触到的知识。

除了对于编程工具的熟练运用，在进入人工智能领域时还需具备一定的数学基础。这两个基础一定要打得牢固。很多人学习人工智能前首先会想方设法得对爬虫知识进行恶补，但个人觉得如果希望能够尽快完成对人工智能行业的转型，目前的研究方向可以仅对爬虫的知识点到为止。爬虫很多情况下在工作中不会用到，数据会由企业进行提供。

=== 深度学习和机器学习的区别 ===

首先帮助大家对深度学习和机器学习的区别进行扫盲。
很多人说深度学习是从机器学习发展而来的，这没错。但是就目前它们涉及到领域而言还是有所不同的。

机器学习偏向于对数据的处理，只要有数据，机器学习中相关的算法都可以运用进去。

深度学习则偏向于图像检测、自然语言处理等，深度学习更专精于某个领域一些。

如果机器学习和深度学习各会一点，而没有专精于某个领域，那么对于找工作而言未必是个好事。就好比图像识别的相关系数和自然语言处理的相关系数是完全不同的。如果你只想做图像检测，那么就将深度学习中的图像处理、目标检测学明白即可。

后续的文章会分别将机器学习和深度学习进行梳理，当大家对内容有了一定的认知后再慢慢思考自己的兴趣所在以及将来研究的方向。相信这会是你毕生的事业。

=== 机器学习的本质 ===

统计是机器学习的基础，机器学习所用到的知识85%以上都是相关的。我们大学里学过的统计学的基础、高数中的求导求偏导、线性代数中的矩阵运算都会大量运用到机器学习的工作当中。

机器学习中最关键的科目是线性代数，线性代数很大程度上做的是矩阵的运算，在机器学习和深度学习过程中，首先我们需要有大量的数据，数据的构成最终会形成矩阵。然后将矩阵中的数据代入到机器学习的算法中去，最终得到我们的求解目标。

后续的文章会将重点的数学知识提炼出来和算法一起解读，个人不建议再回头重新啃一遍大学里所有的数学书，像准备考研那样去做大量习题。毕竟目前人工智能不需要大家自己去开发算法，也没有精力把所有的数学知识全部学透。

目前人工智能的入门工作还是偏向于大量的复制粘贴工作，这点和传统互联网行业的入门差不多。后续文章中所讲述的机器学习代码，注重学习算法的运用，毕竟目前集成的机器学习库运算结果准确度很高，运算效率也不错。虽然笔者会讲述算法的原理，但是没有必要深入理解，毕竟工作不可能一上来就让你优化算法。学会API，了解运用场景即可。

=== 机器学习的大纲 ===

这里我先把后续文章的大纲简单列一下，后续可能会略有调整。

首先理解回归和分类的概念。

回归：对连续型数据未来的预测称为回归。是进入机器学习的入门算法，帮助你们进入机器学习的大门。该算法和统计中相关的模型建立、假设相关，最后通过线性回归对数据进行预测。统计学习中的终极是回归算法，而这个算法是机器学习的开始，是最基础、最简单的方法。

分类：对离散型数据的归纳称为分类。

1、LinearRegression线性回归：对连续型数据未来的预测。

2、Logistic回归：名曰回归，却处理着离散数据的分类。如：根据一堆数据，分析是产生这些数据的男是女。

3、Softmax回归: 处理多分类。如：分析一个动物是猫是狗是兔子，处理多分类。是在Logistic二分类的基础上进化出来的算法。

4、 KNN算法: 也称邻近算法，是分类算法中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。

5、决策树：比较高级的算法，分类问题和回归问题都能解决。

6、集成学习：了解了以上若干比较基础的机器学习算法后，将之前的方法合并起来。
也许这些模型的最终的模型结果不是很好，通过某种集成的方法也许会让结果变得更好。

7、SVM支持向量机：主要用来解决分类问题。其中SVR也支持向量回归的算法。

8、聚类：以上的算法都有明确的目的，但如果对于数据的分类结果事先不确定，或者说不知道数据要分出几类。那么最合理的解决方法就是把数据划分开，每一类数据都分析出一个比较典型的特性来区分。这种思想和算法叫做聚类。1~5是有监督的方法，即有目标存在而聚类是一种无监督的方法。

9、贝叶斯算法、贝叶斯网络：一种特定的分类方法，用于文本的分类。

10、EM算法：不是机器学习的模型，是一种解决机器学习模型中参数求解的算法。

11、HMM(隐马尔可夫模型)：中文分词运用的比较多。也是分词领域中最基本的模型，面试中会经常问起，但工作中未必会用到。

12、主题模型LDA算法：有若干份文章，想知道文章的类型（是新闻、小说？）或更细的分类(悬疑小说、科幻小说?) 对于人类而言需要阅读后才能知道。机器能做的是对这若干份文章进行划分。注意：是划分而不是明确分类。因为在有监督的算法中，我们才能确定文章所属的明确分类，但很多时候分类的时候并不知道。LDA算法通过机器对文章进行分类，最后人工进行贴标签。

13、特征工程：将原始数据转化为特征，更好表示预测模型处理的实际问题，提升对于未知数据的准确性。它是用目标问题所在的特定领域知识或者自动化的方法来生成、提取、删减或者组合变化得到特征。

我的博客即将入驻“云栖社区”，诚邀技术同仁一同入驻。

01 面向就业的人工智能学习概述

=== 深度学习和机器学习的区别 ===

=== 机器学习的本质 ===

=== 机器学习的大纲 ===

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

01 面向就业的人工智能学习概述

=== 深度学习和机器学习的区别 ===

=== 机器学习的本质 ===

=== 机器学习的大纲 ===

热门文章

最新文章

相关课程

相关电子书

相关实验场景