天翼杯大数据算法应用大赛-阿里云开发者社区

天翼杯大数据算法应用大赛

2016-06-28 1219

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 代码：https://github.com/jinhang/TianYiBeiBigDataMatch 一、赛题根据前7周用户访问十个视频网站数据及其他上网行为数据，预测用户第8周访问十个视频网站的访问量——选手提交每个userid第八周每天分别访问十个视频网站的次数。

代码：https://github.com/jinhang/TianYiBeiBigDataMatch

一、赛题根据前7周用户访问十个视频网站数据及其他上网行为数据，预测用户第8周访问十个视频网站的访问量——选手提交每个userid第八周每天分别访问十个视频网站的次数。

二、赛题数据格式说明第二赛段赛题数据（PaaS平台目录名：game-data）包括两个部分： 1. 十个视频网站数据，PaaS平台目录名：video-visit-data； 2. 其他上网行为数据，PaaS平台目录名：user-behavior-data。请注意： Ø 以上数据均以0.5小时为粒度统计，即：每0.5小时对用户访问量进行一次汇总； Ø 本次赛题共抽取了299933个用户的数据； Ø 赛题数据总大小为25.38G，其中十个视频网站数据大小为0.38G，其他上网行为数据大小为25G。

2.1 十个视频网站数据格式说明 C:UsersDellDesktop�.jpg 样例如下图所示： C:UsersDellDesktop�.jpg 2.2 其他上网行为标签数据格式说明 C:UsersDellDesktop�.jpg 样例如下图所示： C:UsersDellDesktop�.jpg

三、结果数据格式说明选手需要将预测结果存入txt文本文件中，并采用如下格式： C:UsersDellDesktop�.jpg 说明： 1、user_id与预测结果之间用tab分隔符分割； 2、d1_v1表示第八周第一天视频网站1的访问量，访问量必须为非负整数。 3、预测结果按照日期排列由近到远，同一个日期内按照赛题给出的视频网站顺序排列，预测数据之间用逗号分割。 4、上传格式必须为txt格式，不能添加header。样例如下图所示： C:UsersDellDesktop�.jpg 评分标准大赛采用准确率和召回率作为排行榜的评分依据，排行榜评分由二者运算后的F1值得出，详细评分说明如下。 (1) 准确率：用于评估预测的准确度。

采用余弦相似度判断每个用户在第八周每天对十个视频网站的访问量的准确度，并除以选手预测的用户数量。 C:UsersDellDesktop�.jpg

注： N为选手预测的有访问记录的用户数量。 Similarity为每个被预测用户对10个网站7天的访问量预估的余弦相似度。若被预测的用户并未在第八周出现，则默认真实值为该用户对所有视频网站的访问量为0。 UserCount为选手预测的用户数量（包括被列出但对所有视频网站访问量为0的记录）有访问记录，即至少存在对某一视频网站某天的访问量不为0的记录。 (2) 召回率：用于评估预测覆盖的用户数量。

C:UsersDellDesktop8.jpg 注： (a)rUserCount：为真实有访问记录的用户数量 (b)hitUserCount：预测的有访问记录的用户列表与真实有访问记录的用户列表的交集的用户个数。 (c)有访问记录，即至少存在对某一视频网站某天的访问量不为0的记录。 (3) F1值：排名所用分数。

C:UsersDellDesktop9.jpg 大赛最终将以F1值由高到低进行排名。

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

天翼杯大数据算法应用大赛

热门文章

最新文章

相关课程

相关电子书

相关实验场景