分析泰坦尼克号沉船数据 机器学习告诉你谁获救概率更大

简介:

【大数据文摘-阿里云栖社区】成立啦

首次活动报名:21天快速搭建推荐系统

讲师:阿里云算法专家,阿里云推荐引擎技术负责人 郑重(卢梭)

时间:616日晚20:00

报名方式详见文末



 ◆ 

1、实验流程

 

让我们假设这样一个略显沉重的应用场景:泰坦尼克号沉船事件。通过分析泰坦尼克号沉船事件幸存者和丧生者的数据,机器学习是否能够判断拥有什么样的属性的人有更大的概率获救?

 

 

 ◆ 

2、数据准备


0?wx_fmt=png

原始数据

 

将数据导入MaxCompute,

 

•     PassengerId:用户的ID号

•     Survived:乘客是否获救,“1”表示获救,“0”表示没有获救。目标队列(target)

•     Pclass:乘客的社会阶层,“1”表示Upper,“2”表示Middle,“3”表示Lower

•     Sex:乘客的性别,“1”表示男,“0”表示女

•     Age:乘客的年龄

•     sibsp:乘客在船上的配偶数量或兄弟姐妹数量

•     parch:乘客在船上的父母或子女数量

•     fare:乘客的船费

•     cabin:是否住在独立的房间,“1”表示是,“0”为否

•     embarked:表示乘客上船的码头距离泰坦尼克出发码头的距离,数值越大表示距离越远

 

 ◆ 

3、搭建实验流程

0?wx_fmt=png

实验流程

 

1)   首先将数据集按照73进行拆分,一部分作为titanic训练集,一部分作为预测集。

2)   将数据进行标准化处理,去除量纲对于数据造成的干扰。

3)   训练数据通过逻辑回归LR算法生成模型。

4)   对预测集进行预测。

5)   通过ROC曲线和混淆矩阵来对结果进行评估。

 

 

 ◆ 

4、评估结果

 

混淆矩阵结果

0?wx_fmt=png

混淆矩阵结果分析

 

说明:

1.    正确率:预测正确的正例个数占预测为正例的比例,即P=TP/(TP+FP); 

2.    召回率: 预测正确的正例个数占实际正例的比例,即R=TP/(TP+FN);

3.    F1指标:PR的中权调和平均,即F1=2PR/(P+R)。当F1较高时说明实验方法比较理想; 

 

ROC曲线评估结果

0?wx_fmt=png

ROC曲线结果分析

 

说明:

1.    TPR=TP/(TP+FN); 

2.    FPR=FP/(FP+TN); 

3.    ROC曲线:

①  Y轴:TPR; X轴:FPR

②  (0,1):FRP=0,TPR=1FN=0,FP=0,将所有样本都正确分类; 

③  (1,0):即:FPR=1,TPR=0,预测结果相反,正变负,负变正; 

④  (0,0):FRP=TPR=0,将所有样本划分为负样本; 

⑤  (1,1):所有样本划分为正样本;

⑥  ROC曲线越接近左上角,该分类器越好; 

4.    y=x,随机猜测,一半正样本,一半负样本; 

5.    AUC:ROC曲线下面积,应该介于0.5~1之间。AUC 越大,分类器越好; 

 

 ◆ 

5、模型分析

 

逻辑回归生成模型:

 0?wx_fmt=png

模型分析

 

根据Logical regression的特性,model输出的是每个特征的线性组合。3.199为常数项,不予考虑。其它系数绝对值越大说明对结果影响越大。通过这一结论得出agesexpclass对于结果影响最大。

 

 根据sigmoid函数得出负号系数的绝对值越大其结果的正例可能性越大。所以我们可以得出结论,agepclasssex的值越小,目标值越大。

 

 也就是有钱人家的女人和小孩有更大的获救概率。

 

 通过真实数据比对也印证了我们的分析结果:

0?wx_fmt=png

真实数据

 

后台回复“泰坦尼克”可获得相关数据集


  

*关于阿里云机器学习平台*

 

阿里云机器学习平台是一套基于MaxCompute(阿里云分布式计算引擎)的数据挖掘、建模、预测的工具。它提供算法开发、分享、模型训练、部署、监控等一站式算法服务,用户可以通过可视化的操作界面来操作整个实验流程,同时也支持PAI命令,让用户通过命令行来操作实验。

 

该平台沉淀了阿里巴巴的机器学习算法体系和经验,从数据的预处理、到机器学习算法、模型的评估和预测动能。

 

0?wx_fmt=png
阿里云机器学习平台的架构图



大数据文摘-阿里云栖社区】成立啦!

感兴趣的读者可以按照如下方式加入【大数据文摘-阿里云栖社区】,社区将邀请阿里算法专家线上分享干货、发布最新讲座讯息。


616日晚20:00,大数据文摘将邀请阿里算法专家线上分享【如何用21天搭建推荐系统】。


640?wx_fmt=jpeg



报名方式如下:

(一)长按上图二维码,扫码报名

(二)扫码加入大数据文摘-阿里云栖社区扫描以下任一二维码即可,请勿重复扫码



报名1群

0?wx_fmt=png


报名2群

0?wx_fmt=png

群定位:阿里系云计算、大数据、人工智能等技术讨论

群中会有专人指导大家完成注册并提供如下群友福利:

(1)实战技术培训干货(在线培训、培训文章、PDF等)放送

(2)阿里云计算、大数据等产品意见、建议反馈

(3)不定期专家讲座答疑

(4)受邀成为社区专家,共同策划技术选题

(5)各种福利早知道,比如云主机优惠券、课程通知、新品试用等

(6)优先报名参加云栖社区的线下活动,如云栖大会等

原文发布时间为:2016-06-14

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
机器学习/深度学习 数据采集 存储
【机器学习】机器学习流程之收集数据
【机器学习】机器学习流程之收集数据
40 1
|
1月前
|
机器学习/深度学习 数据采集 传感器
机器学习开发流程和用到的数据介绍
机器学习开发流程和用到的数据介绍
|
3月前
|
机器学习/深度学习 资源调度
【机器学习】归一化目的分析
【1月更文挑战第27天】【机器学习】归一化目的分析
|
1月前
|
机器学习/深度学习 算法 数据可视化
JAMA | 机器学习中的可解释性:SHAP分析图像复刻与解读
JAMA | 机器学习中的可解释性:SHAP分析图像复刻与解读
75 1
|
1月前
|
机器学习/深度学习 算法 数据可视化
机器学习-生存分析:如何基于随机生存森林训练乳腺癌风险评估模型?
机器学习-生存分析:如何基于随机生存森林训练乳腺癌风险评估模型?
29 1
|
2月前
|
机器学习/深度学习 算法 数据可视化
机器学习——主成分分析(PCA)
机器学习——主成分分析(PCA)
26 0
|
2月前
|
机器学习/深度学习 消息中间件 人工智能
机器学习PAI报错问题之读取kafka数据报错如何解决
人工智能平台PAI是是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务;本合集将收录PAI常见的报错信息和解决策略,帮助用户迅速定位问题并采取相应措施,确保机器学习项目的顺利推进。
|
2月前
|
机器学习/深度学习 数据采集 自然语言处理
编写员工聊天监控软件的机器学习模块:Scikit-learn在行为分析中的应用
随着企业对员工行为监控的需求增加,开发一种能够自动分析员工聊天内容并检测异常行为的软件变得愈发重要。本文介绍了如何使用机器学习模块Scikit-learn来构建这样一个模块,并将其嵌入到员工聊天监控软件中。
148 3
|
2月前
|
机器学习/深度学习 自然语言处理 JavaScript
GEE机器学习——最大熵分类器案例分析(JavaScript和python代码)
GEE机器学习——最大熵分类器案例分析(JavaScript和python代码)
41 0
|
3月前
|
机器学习/深度学习 自然语言处理 算法
【机器学习】生成对抗网络(GAN)应用领域分析
【1月更文挑战第27天】【机器学习】生成对抗网络(GAN)应用领域分析

热门文章

最新文章