天翼杯大数据算法应用大赛

简介: 代码:https://github.com/jinhang/TianYiBeiBigDataMatch 一、赛题 根据前7周用户访问十个视频网站数据及其他上网行为数据,预测用户第8周访问十个视频网站的访问量——选手提交每个userid第八周每天分别访问十个视频网站的次数。

代码:https://github.com/jinhang/TianYiBeiBigDataMatch

一、赛题 根据前7周用户访问十个视频网站数据及其他上网行为数据,预测用户第8周访问十个视频网站的访问量——选手提交每个userid第八周每天分别访问十个视频网站的次数。

二、赛题数据格式说明 第二赛段赛题数据(PaaS平台目录名:game-data)包括两个部分: 1. 十个视频网站数据,PaaS平台目录名:video-visit-data; 2. 其他上网行为数据,PaaS平台目录名:user-behavior-data。 请注意: Ø 以上数据均以0.5小时为粒度统计,即:每0.5小时对用户访问量进行一次汇总; Ø 本次赛题共抽取了299933个用户的数据; Ø 赛题数据总大小为25.38G,其中十个视频网站数据大小为0.38G,其他上网行为数据大小为25G。

2.1 十个视频网站数据格式说明 C:UsersDellDesktop�.jpg 样例如下图所示: C:UsersDellDesktop�.jpg 2.2 其他上网行为标签数据格式说明 C:UsersDellDesktop�.jpg 样例如下图所示: C:UsersDellDesktop�.jpg

三、结果数据格式说明 选手需要将预测结果存入txt文本文件中,并采用如下格式: C:UsersDellDesktop�.jpg 说明: 1、user_id与预测结果之间用tab分隔符分割; 2、d1_v1表示第八周第一天视频网站1的访问量,访问量必须为非负整数。 3、预测结果按照日期排列由近到远,同一个日期内按照赛题给出的视频网站顺序排列,预测数据之间用逗号分割。 4、上传格式必须为txt格式,不能添加header。 样例如下图所示: C:UsersDellDesktop�.jpg 评分标准 大赛采用准确率和召回率作为排行榜的评分依据,排行榜评分由二者运算后的F1值得出,详细评分说明如下。 (1) 准确率:用于评估预测的准确度。

采用余弦相似度判断每个用户在第八周每天对十个视频网站的访问量的准确度,并除以选手预测的用户数量。 C:UsersDellDesktop�.jpg

注: N为选手预测的有访问记录的用户数量。 Similarity为每个被预测用户对10个网站7天的访问量预估的余弦相似度。若被预测的用户并未在第八周出现,则默认真实值为该用户对所有视频网站的访问量为0。 UserCount为选手预测的用户数量(包括被列出但对所有视频网站访问量为0的记录) 有访问记录,即至少存在对某一视频网站某天的访问量不为0的记录。 (2) 召回率:用于评估预测覆盖的用户数量。

C:UsersDellDesktop8.jpg 注: (a)rUserCount:为真实有访问记录的用户数量 (b)hitUserCount:预测的有访问记录的用户列表与真实有访问记录的用户列表的交集的用户个数。 (c)有访问记录,即至少存在对某一视频网站某天的访问量不为0的记录。 (3) F1值:排名所用分数。

C:UsersDellDesktop9.jpg 大赛最终将以F1值由高到低进行排名。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2天前
|
机器学习/深度学习 自然语言处理 算法
机器学习算法原理与应用:深入探索与实战
【5月更文挑战第2天】本文深入探讨机器学习算法原理,包括监督学习(如线性回归、SVM、神经网络)、非监督学习(聚类、PCA)和强化学习。通过案例展示了机器学习在图像识别(CNN)、自然语言处理(RNN/LSTM)和推荐系统(协同过滤)的应用。随着技术发展,机器学习正广泛影响各领域,但也带来隐私和算法偏见问题,需关注解决。
|
3天前
|
机器学习/深度学习 算法 C语言
【C言专栏】递归算法在 C 语言中的应用
【4月更文挑战第30天】本文介绍了递归算法在C语言中的应用,包括基本概念(通过调用自身解决子问题)、特点(调用自身、终止条件、栈空间)和实现步骤(定义递归函数、分解问题、设置终止条件、组合解)。文中通过阶乘计算和斐波那契数列两个案例展示了递归的使用,强调了递归可能导致的栈溢出问题及优化需求。学习递归有助于理解和应用“分而治之”策略。
|
3天前
|
机器学习/深度学习 数据可视化 算法
【Python机器学习专栏】t-SNE算法在数据可视化中的应用
【4月更文挑战第30天】t-SNE算法是用于高维数据可视化的非线性降维技术,通过最小化Kullback-Leibler散度在低维空间保持数据点间关系。其特点包括:高维到二维/三维映射、保留局部结构、无需预定义簇数量,但计算成本高。Python中可使用`scikit-learn`的`TSNE`类实现,结合`matplotlib`进行可视化。尽管计算昂贵,t-SNE在揭示复杂数据集结构上极具价值。
|
3天前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习专栏】层次聚类算法的原理与应用
【4月更文挑战第30天】层次聚类是数据挖掘中的聚类技术,无需预设簇数量,能生成数据的层次结构。分为凝聚(自下而上)和分裂(自上而下)两类,常用凝聚层次聚类有最短/最长距离、群集平均和Ward方法。优点是自动确定簇数、提供层次结构,适合小到中型数据集;缺点是计算成本高、过程不可逆且对异常值敏感。在Python中可使用`scipy.cluster.hierarchy`进行实现。尽管有局限,层次聚类仍是各领域强大的分析工具。
|
3天前
|
机器学习/深度学习 算法 前端开发
【Python机器学习专栏】集成学习算法的原理与应用
【4月更文挑战第30天】集成学习通过组合多个基学习器提升预测准确性,广泛应用于分类、回归等问题。主要步骤包括生成基学习器、训练和结合预测结果。算法类型有Bagging(如随机森林)、Boosting(如AdaBoost)和Stacking。Python中可使用scikit-learn实现,如示例代码展示的随机森林分类。集成学习能降低模型方差,缓解过拟合,提高预测性能。
|
4天前
|
存储 算法 搜索推荐
算法的复杂性与应用
算法的复杂性与应用
7 0
|
4天前
|
存储 算法 Python
数据结构与算法基础及在计算机科学中的应用
数据结构与算法基础及在计算机科学中的应用
8 0
|
5天前
|
存储 机器学习/深度学习 算法
|
7天前
|
存储 安全 算法
【专栏】保护数据安全的重要性:安全加密算法在数据保护中的应用
【4月更文挑战第27天】在数字化时代,数据安全至关重要,关系到个人隐私、企业商业机密、国家安全及经济发展。安全加密算法(如对称加密、非对称加密和哈希算法)在保护数据方面发挥关键作用。它们应用于电子商务、金融、物联网、云存储和数字签名等领域,确保信息传输和存储的安全。面对日益复杂的挑战,我们需要持续研究和应用加密技术,提高数据安全意识,共同维护数字世界的繁荣与安全。
|
9天前
|
存储 算法 前端开发
探索数据结构与算法在前端开发中的应用
本文探讨了数据结构与算法在前端开发中的重要性和应用。通过分析常见的前端场景,结合数据结构与算法的原理,介绍了如何优化前端代码性能,提高用户体验。