机器学习必备:前20名Python人工智能和机器学习开源项目

简介: 机器学习之旅必了解:前20名Python人工智能和机器学习开源项目!

如今机器学习和人工智能已经变得家喻户晓,有很多爱好者进入了该领域。但是,什么才是能够进入该领域的正确路径呢?如何保持自己跟上该领域的发展步伐呢?

为了解决以上两个问题,可以通过利用高级专业人员每天使用的众多开源项目和工具,与社区进行接触。

如今,Tensorflow的贡献者人数增长最快,居首位。Scikit-learn下降到第二位,但仍有非常大的贡献者群体。

与2016年相比,贡献者人数增长最快的项目是:

1. TensorFlow提高了169%,从493个增加到1324个贡献者。

2. Deap,提高了86%,从21个增加到39个贡献者。

3. Chainer,提高了83%,从84个增加到154个贡献者。

4. Gensim,提高了81%,从145个增加到262个贡献者。

5. Neon,提高了66%,从47个增加到78个贡献者。

6. Nilearn提高了50%,从46个增加到69个贡献者。

2018年新晋的两个项目的贡献者人数:

1.   Keras,626名贡献者。

2.   Pytorch,399名贡献者。

6a30a964415dfee93118e37ac35a843d841a7401

图1:Github上的前20名Python人工智能和机器学习项目

上图:雪花大小与贡献者的数量成正比,颜色代表贡献者数量的变化-红色越高,蓝色越低。雪花形状适用于深度学习项目,适用于其他项目。

下面的列表根据Github上贡献者的数量将项目从高到低进行排列。贡献者人数的变化与2016KDnuggets发布的前20Python机器学习开源项目相对

1.   TensorFlow最初是由谷歌机器智能研究机构的Goole Brain Team的研究人员和工程师开发的。该系统旨在促进机器学习方面的研究,并使其快速、容易的从研究原型过渡到生产系统。

贡献者:1324(上升168%),提交:28476,Stars:92359.Github网址:Tensorflow

2.   Scikit-learn是用于数据挖掘和数据分析的简单而高效的工具,基于NumPySciPymatplotlib,开源,商业可用-BSD许可证,可供所有人访问,并且可在各种环境中重复使用。

贡献者:1019(上升39%),提交:22575,Github网址:Scikit-learn

3.   Keras是一种高级神经网络的API,用Python编写,能够在TensorFlow,CNTKTheano上运行。

贡献者:629(新),提交:4371,Github网址:Keras

4.   PyTorch张量(Tensor动态神经网络(Dynamic neyral networks)在Python中具有强大的GPU加速。

贡献者:399(新),提交:6458,Github 网址:pytorch

5.   Theano允许你定义、优化和评估涉及多维数数组的数学表达式。

贡献者:327(上升24%),提交:27931,Github网址:Theano

6.   Gensim是一个免费的Python库,具有可扩展的统计语义,用于分析语义结构的纯文本文档,检索语义相似的文档。

贡献者:262(上升81%),提交:3549,Github网址:Gensim

7.   Caffe是一个深度学习框架,它的表达、速度和模块化都是在头脑中形成的。它由伯克利视觉和学习中心(BVLC)和社区贡献者开发。

贡献者:260(上升21%),提交:4099,Github网址:Caffe

8.   Chainer是一个基于Python的深度学习模型的独立开源框架。Chainer提供灵活、直观和高性能的手段来实施全方位的深度学习模型,包括最新的模型,如递归神经网络和变分自动编码器。

贡献者:154(上升84%),提交:12613,Github网址:Chainer

9.   Statsmodels是一个Python模块,允许用户探索数据,估计统计模型并执行统计测试。描述统计、统计测试、绘图功能和结果统计的广泛列表适用于不同类型的数据和任意一个估算器。

贡献者:144(上升33%),提交:9729,Github网址:Statsmodels

10. Shogun是机器学习工具箱,它提供了广泛的统一和高效的机器学习(ML)方法。该工具箱可以无缝地组合多个数据表示、算法类和通用工具。

贡献者:139(上升32%),提交:16362,Github网址:Shogun

11. Pylearn2是一个机器学习库。其大部分功能都建立在Theano之上。这意味着你可以使用数学表达式编写Pylearn2插件(新模型、算法等),Theano将为你优化和稳定这些表达式,并将它们编译为你选择的后端(CPU或GPU)。

贡献者:119(上升3.5%),提交:7119,Github网址:Pylearn2

12. NuPIC是一个开源项目,它基于被称为分层时间存储器(HTM)的新大脑皮层理论。部分HTM理论已经在应用中实施、测试和使用,而HTM理论的其他部分仍在开发中。

贡献者:85(上升12%),提交:6588,Github网址:NuPIC

13. NeonNervana基于Python的深度学习库。它提供易用性,同时提供最高的性能。

贡献者:78%(上升66%),提交:1112,Github网址:Neon

14. Nilearn是一个Python模块,用于快速简单的统计学习神经成像数据。它利用scikit-learn Python工具箱进行多变量统计,并提供预测建模,分类,解码或连接分析等应用。

贡献者:69(上升50%),提交:6198,Github网址:Nilearn

15. Orange3是新手和专家的开源机器学习和可视化数据。使用大型工具箱交互式数据分析工作流程。

贡献者:53(上升33%),提交:8915,Github网址:Orange3

16.Pymc是一个python模块,实现贝叶斯统计模型和拟合算法,包括马尔可夫链蒙特卡罗(Markov chain Monte Carlo。其灵活性和可扩展性使其适用大量问题。

贡献者:39(上升5.4%),提交:2721,Github网址:Pymc

17.Deap是用于快速原型设计和测试思想的新型演化计算框架,它试图使算法明确,数据结构透明。它与多处理(MultiprocessingSCOOP等并行机制完美协调。

贡献者:39(上升86%),提交:1960年,Github网址:Deap

18. Annoy(Approximate Nearest Neighbor Oh Yeah)是一个C++库,它使用Python绑定来搜索接近给定查询点的空间点。它还创建了大量的基于只读文件的数据结构,这些数据结构被映射到内存中,以便许多进程可以共享相同的数据。

贡献者:35(上升46%),提交:527,Github网址:Annoy

19. PyBrain是Python的模块化机器学习库。其目标是为机器学习任务提供灵活,易于使用但仍然强大的算法,以及各种预定义环境来测试和比较你的算法。

贡献者:32(上升3%),提交:992,Github网址:PyBrain

20. Fuel是一个数据管道框架,它为你的机器学习模型提供所需数据。它将被用于BlocksPylearn2神经网络库。

贡献者:32(上升10%),提交:1116,Github 网址:Fuel

 贡献者和提交数在2018年2月录得。

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译

文章原标题《Top 20 Python AI and Machine Learning Open Source Projects》

作者:IIan Reinstein

译者:乌拉乌拉,审校:袁虎。

文章为简译,更为详细的内容,请查看原文文章

相关文章
|
1天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI
人工智能平台PAI
5 0
|
2天前
|
数据采集 Dart Apache
Github 2024-05-07 Python开源项目日报 Top10
在2024年5月7日的Github Trendings中,Python开源项目占据主导,共有10个项目上榜。其中热门项目包括:yt-dlp,一个增强版的youtube-dl分支,具有64K+星标;Home Assistant,专注本地控制和隐私的开源家庭自动化项目,拥有65K+星标;以及openpilot,一个开源驾驶辅助系统,支持多种车型,45K+星标。其他项目涵盖爬虫工具、实时应用框架Flet、可观测性平台Logfire等,涉及Python、Dart和C++等多种语言。
33 10
|
2天前
|
机器学习/深度学习 算法 算法框架/工具
Python深度学习基于Tensorflow(5)机器学习基础
Python深度学习基于Tensorflow(5)机器学习基础
14 2
|
3天前
|
机器学习/深度学习 人工智能 算法
基于Java的人工智能与机器学习初探
基于Java的人工智能与机器学习初探
16 0
|
4天前
|
机器学习/深度学习 存储 人工智能
【人工智能】机器学习算法综述及常见算法详解
【人工智能】机器学习算法综述及常见算法详解
|
5天前
|
机器学习/深度学习 算法 Python
深入浅出Python机器学习:从零开始的SVM教程/厾罗
深入浅出Python机器学习:从零开始的SVM教程/厾罗
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
【5月更文挑战第4天】【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
|
11天前
|
机器学习/深度学习 边缘计算 TensorFlow
【Python机器学习专栏】Python机器学习工具与库的未来展望
【4月更文挑战第30天】本文探讨了Python在机器学习中的关键角色,重点介绍了Scikit-learn、TensorFlow和PyTorch等流行库。随着技术进步,未来Python机器学习工具将聚焦自动化、智能化、可解释性和可信赖性,并促进跨领域创新,结合云端与边缘计算,为各领域应用带来更高效、可靠的解决方案。
|
11天前
|
机器学习/深度学习 传感器 物联网
【Python机器学习专栏】机器学习在物联网(IoT)中的集成
【4月更文挑战第30天】本文探讨了机器学习在物联网(IoT)中的应用,包括数据收集预处理、实时分析决策和模型训练更新。机器学习被用于智能家居、工业自动化和健康监测等领域,例如预测居民行为以优化能源效率和设备维护。Python是支持物联网项目机器学习集成的重要工具,文中给出了一个使用`scikit-learn`预测温度的简单示例。尽管面临数据隐私、安全性和模型解释性等挑战,但物联网与机器学习的结合将持续推动各行业的创新和智能化。
|
11天前
|
机器学习/深度学习 数据采集 算法
【Python 机器学习专栏】机器学习在医疗诊断中的前沿应用
【4月更文挑战第30天】本文探讨了机器学习在医疗诊断中的应用,强调其在处理复杂疾病和大量数据时的重要性。神经网络、决策树和支持向量机等方法用于医学影像诊断、疾病预测和基因数据分析。Python作为常用工具,简化了模型构建和数据分析。然而,数据质量、模型解释性和伦理法律问题构成挑战,需通过数据验证、可解释性研究及建立规范来应对。未来,机器学习将更深入地影响医疗诊断,带来智能和精准的诊断工具,同时也需跨学科合作推动其健康发展。