从数据小白到大赛黑马,他们如是说 | 专访2017中国高校SAS数据分析大赛亚军团队

简介:

近日,2017年中国高校SAS数据分析大赛北京举办了颁奖仪式,来自清华大学大数据能力提升项目的三位学生(王存光、姚超、李继凡)组队参赛,并一举斩获亚军殊荣。这项以高校数据分析人才为核心的赛事至今已举办至第五届,今年是清华大学第一次派出代表参加比赛。通常的参赛队伍多来自于金融统计专业然而此次获得亚军殊荣的三位学生王存光、姚超、李继凡分别来自于清华大学水利系、精密仪器系和生物医学工程系

968569cb1900db23b6fcd40af1223b627cf0906e

首次参赛“零经验”、交叉学科“罕见背景”、超过1000支的竞争队伍,这对他们来说,无疑是不小的挑战。如何在高手频出的大赛中崭露头角?清华大学大数据能力提升项目又给予了他们怎样的帮助?让我们一起听听,他们怎么讲。

赶Deadline的那些日子

时间比较紧张,从我们决定要参加比赛直到初赛,也就大概10天,所以准备比赛的过程,基本上就是在赶Deadline的过程。备赛时间集中在国庆放假,我们都牺牲了宝贵的假期,疯狂备战。”说到比赛前的准备过程,来自精密仪器系的姚超娓娓而谈,好像一切才过去不久。 

“另一种压力来自于准备过程中的不确定性,就是我们也不知道这样做是对还是错,是否能够继续下去,所以心里有点没谱。不过幸运的是,数据研究院的老师在鼓励和支持我们,还给了我们很多实际的帮助。这次是我们第一次,也是清华第一次参加中国高校SAS数据分析大赛,所以对于比赛信息我们了解得很少,也没有接触过SAS系统进行数据分析,最初不知道该从何下手。后来我们找到了数据研究院的罗老师,她给我们分享了很多《数据分析与优化建模》的往期课件。这些课件系统地介绍了如何使用SAS软件做数据分析,帮助我们在几天之内上了手。”生物医学工程系的李继凡补充说。 

对于姚超、王存光和李继凡三位学生来说,这次比赛所遇到的困难不小——备赛时间短、首次参赛零经验、陌生的数据分析系统。虽初战告捷,他们所遇到的挑战却不止如此。 

“黑马”跨界

在高手如云的中国高校SAS数据分析大赛中,参赛选手们大多来自于金融或统计专业,而王存光、姚超和李继凡三位同学却都是工科背景,甚至来自不同的专业。 

 “我们水利系所用到的数据分析并不复杂,像比赛中这种大型的数据分析在我们专业很少会用到。”清华大学水利系博士二年级在读生王存光说道,“这是我们第一次用SAS这个数据分析工具,所以技术上肯定没有信息学院或者其他相关专业的学生那么熟练,但是因为我们有不同的学科背景,所以每个队员可以根据自己的优势承担相应的工作,充分利用各自学科所带来上‘长板’。 

“初赛题目是与银行信贷相关,因此生物医学工程系的继凡主要负责了变量分类和背景分析的工作,而精密仪器系的姚超主要是将数据中627个特征逐一分析,找出核心变量,而我主要负责了模型搭建的工作。这个过程其实很考验我们的沟通协作能力,每一个环节都很关键。”王存光说。这种跨学科的学习方式,正是清华大学数据科学研究院有别传统的新型教学理念。“和不同专业的人在一起做项目会发现很多创新点,”来自生物医学工程系的李继凡说。在《大数据实践课》上,信息类和非信息类的学生跨学科组队,以团队的形式做项目,使不同背景的学生能够在组内充分交流,相互学习,各自发挥特长。 “平时的这种锻炼对于比赛中所需要的沟通协作能力以及团队凝聚力也有很大的帮助。”李继凡接着说道。 

“未来”已来 

在今天的IT领域,越来越多的问题可以用数据驱动方法来解决。它是大数据的基础,更重要的是,它带来了一种新的思维方式。 

“不能跟信息学院的学生拼技术,还是得拼思维方式和实现能力。冠军队在决赛的时候其实就坐在我们后面,相比之下,他们确实更从容,我们因为对技术不够熟练所以略显匆忙,”姚超说,“技术方面我们工科背景的学生肯定是没有优势的,但是好在我们会及时发现问题并解决问题,动手能力比较强。而且我们可以与专业知识结合在一起做项目,数据只是一种手段,思维方式是关键。 

“就是数据院常说的π型人才嘛。” 李继凡接过了话头。李继凡所说的π型人才正是清华大学数据研究院重点着力的人才培养方向,通过大数据思维与技能、跨界学习能力、实操应用相结合的课程体系,帮助清华学子们将大数据思维与应用创新有机结合,为大家日后的发展提前打好基础。 

“总之,比赛一定程度上还是可以检验并提升自己的,希望在下次的比赛中,我们能够有更好的发挥。” 李继凡继续说道。

创新需要勇气,提升离不开实践。大数据思维、跨界学习、应用实操相结合的培养与锻炼,成为了王存光、姚超、李继凡三位同学在此次比赛中的“力量之源”。清华大学首次派队角逐中国高校SAS数据分析大赛便满载而归,同学们在此次比赛中所展现的能力,是他们自我努力的体现,也是数据科学研究院先进教学理念的展示。希望今后数据院能够帮助更多的清华学子,在数据科学领域绽放异彩,找到属于自己的人生舞台。


原文发布时间为:2017-12-4

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
自然语言处理 小程序 数据挖掘
数据分析实战-Python实现博客评论数据的情感分析
数据分析实战-Python实现博客评论数据的情感分析
106 0
|
2月前
|
数据采集 数据挖掘 API
主流电商平台数据采集API接口|【Python爬虫+数据分析】采集电商平台数据信息采集
随着电商平台的兴起,越来越多的人开始在网上购物。而对于电商平台来说,商品信息、价格、评论等数据是非常重要的。因此,抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。本文将介绍如何使用Python编写爬虫程序,抓取电商平台的商品信息、价格、评论等数据。 当然,如果是电商企业,跨境电商企业,ERP系统搭建,我们经常需要采集的平台多,数据量大,要求数据稳定供应,有并发需求,那就需要通过接入电商API数据采集接口,封装好的数据采集接口更方便稳定高效数据采集。
|
10天前
|
数据挖掘 定位技术
基于出租车GPS轨迹数据的研究:出租车行程的数据分析
基于出租车GPS轨迹数据的研究:出租车行程的数据分析
18 0
|
11天前
|
机器学习/深度学习 数据采集 数据挖掘
Python 的科学计算和数据分析: 解释什么是数据规整(Data Wrangling)?
【4月更文挑战第15天】数据规整是将原始数据转化为适合分析和建模的格式的关键步骤,涉及缺失值处理(删除、填充、插值)、异常值检测与处理、数据类型转换、重采样、数据合并、特征选择和特征变换等任务。这些预处理步骤确保数据质量和准确性,为后续的数据分析和机器学习模型构建奠定基础。
18 4
|
22天前
|
存储 机器学习/深度学习 数据采集
数据分析师如何处理数据以进行分析?
【4月更文挑战第4天】数据分析师如何处理数据以进行分析?
19 9
|
24天前
|
人工智能 监控 数据可视化
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
|
1月前
|
存储 数据采集 数据挖掘
python数据分析——数据分类汇总与统计
数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳,然后对这些数据进行统计分析,以便于更好地了解数据的特点和规律。
62 1
|
1月前
|
存储 SQL 数据挖掘
python数据分析——数据的选择和运算
在数据分析中,数据的选择和运算是非常重要的步骤。数据选择和运算是数据分析中的基础工作,正确和高效的选择和运算方法对于数据分析结果的准确性和速度至关重要。
43 0
|
1月前
|
JSON 数据挖掘 数据格式
python数据分析——数据分析的数据的导入和导出
数据分析的数据的导入和导出是数据分析流程中至关重要的两个环节,它们直接影响到数据分析的准确性和效率。在数据导入阶段,首先要确保数据的来源可靠、格式统一,并且能够满足分析需求。这通常涉及到数据清洗和预处理的工作,比如去除重复数据、处理缺失值、转换数据类型等,以确保数据的完整性和一致性。
36 0
|
1月前
|
数据采集 数据可视化 数据挖掘
python数据分析——业务数据描述
业务数据描述将从统计学角度来分析这指标。利用统计方法,数据分析人员可以通过相应统计模型开展数据分析。数据分析过程包括数据收集,数据处理,数据探索,模型方法应用,分析结果数据展现及形成分析报告。 业务报表是指对业务内容和数据的统计分析图表。统计图表代表了一张图像化的数据,形象地呈现数据。我们常常提到的可视化分析图表一般包括比较类图表,占比类图表,相关类图表和趋势类图表。
40 1