菜鸟—需求预测与分仓规划冠军——“商品小A”团队赛后总结

简介: 在菜鸟—需求预测与分仓规划比赛上,“商品小A”团队获得了冠军。队长袁光浩分享了“商品小A”团队的数据探索以及算法实现过程。

在菜鸟—需求预测与分仓规划比赛上,“商品小A”团队获得了冠军。队长袁光浩分享了“商品小A”团队的数据探索以及算法实现过程。

零售数据分析的职责是根据客户的数据做客户的数据分析报告,客户可以基于报告得到的结论对商业决定做修正。

赛题背后的商业需求

按照官方的说法,对未来商品需求进行准确的预测,可以帮助商家自动化很多供应链过程中的决策。这些以数据驱动的供应链能够帮助商家大幅降低运营成本,提升用户的体验,对整个行业的效益提升起到一定作用。此时,大家可能有一个疑问,销售的带链呢?货品如果是很少的,意味着商家失去了销售的机会,这其实是一种隐性的损失。

数据探索

比赛提供的数据中,最引人注目的是,在20万商品里面最后出现的日期中最早的那一个,即2015年12月21日,这意味着这个商品在整个数据集里面是有效的,我们需要预测其在2016年年初的销量。根据销售时间和总量的分析,删除促销热的数据之后,发现其是递增的。这些数据为方案的决策起到了一定的作用。

其中,有一个商品A,经过2015年春节之后它就不再销售了,经过在同一个供应商找与A商品类似的商品,但是并没有找到,这在实际的应用中比较罕见。但是为什么出现这样的情况呢?这说明了数据脱敏做的非常好,商家将数据隐藏起来保障其权益,其他人难以通过数据追踪商家运营模式。最初的思路是按照我们的工作习惯,去寻找其主流商品,找到其搭配的商品,但是这种方法是基本做不到的。

另外一种情况,有一些商品的生命周期比较长,在2014年的年末和2015年的年末走势是比较相近的,我们可以利用这个特征来预测其下一年的销售情况。

数据分析预测

通过上述的数据探索,我们大致可以了解数据的构成。大部分商品是从2015年开始销售的,在2014年并没有留下太多对我们有用的信息。对于大量的数据,我们怎么挖掘信息?首先,可以通过时间序列来探测,但是可能损失一些重要的特征,比如相同种类的商品(同一商品,或者不同商家的)竞争关系就会丢失掉。

更优的做法是采用机器学习的方法。具体的做法是通过近期的销量情况,去研究此后两周销量总量的影响情况。我们需要建立预测模型,利用回归分析方法进行预测。我们需要专门针对数据集做一个分类,因为对于主力商品,商品的规划会特别关注商品的销售曲线,这些都人为可以控制的(通过价格等因素)。所以对于找出规律的这些商品,需要单独拿出来,因为剩下的大部分数据中还会有很多的噪声,如果一起训练的话会影响这部分商品的预测。对两部分商品分别做回归预测过程中,对双十一这种特殊的销售情形需要做一定的过滤。

特征曲线确定好之后,开始做数据深层的准备。在这个阶段同时进行的还有数据的处理,比如把缺失的数据用非聚划算销量算法补齐,过滤算法也是在这个阶段完成的。为什么要过滤掉具有波峰的数据?因为经过双十一之后,商家在一月初二月初做促销的可能性就会降低,虽然这不一定正确,但是在缺乏商家有效信息的情况下,选择一个保险的策略是正确的。

可以利用滑动窗口的方法创建训练集和验证集。创建验证集可以让我们有快速的方法验证我们的思路。我们把最后14天的非计划的数量值作为目标值,把之前14天的各种数据计算出来作为特征值,向前滑动14天。以此类推,做10个窗口。并且,还需要对任务空间产生的数据集做一次处理。首先对训练集进行训练,得到模型之后对验证集做一次预测。然后把预测不准的窗口从训练集删除,重新将其和验证集合并,对线上的测试指标做真正的预测。

最终采用的模型是线性回归和xgboost模型。分别建模、运算,然后对运行的结果做一个合并,根据验证集改变模型的权重。把分仓和母仓分别建模,因为有些商户做活动的时候是全国所有的仓库一起升一起降,有些商户是依次出现的,有些则是没有规律的,因此分别建模会比较好。

总结

如果有更丰富的数据,比如商家的计划、库存,那么我们可以做更好的预测。如果对业务越了解,建立的模型就越接近真实情况。并且,组合不同的算法往往是更有效的。
相关文章
|
2月前
|
数据采集 人工智能 供应链
年末复盘全域数据太糟心?瓴羊One一站搞定!
年末复盘全域数据太糟心?瓴羊One一站搞定!
年末复盘全域数据太糟心?瓴羊One一站搞定!
|
2月前
|
人工智能 数据可视化 搜索推荐
年货节开跑!这份电商打工人备战指南你还没看?
年货节开跑!这份电商打工人备战指南你还没看?
|
机器学习/深度学习 人工智能 自然语言处理
IDC最新报告复盘疫情大考 百度AI交高分答卷
IDC最新报告复盘疫情大考 百度AI交高分答卷
199 0
IDC最新报告复盘疫情大考 百度AI交高分答卷
|
机器学习/深度学习 数据采集 自然语言处理
商品评价里藏了一座“宝藏”,阿里工程师如何挖掘?
小叽导读:买家评价是消费者购物后对商品的真实反馈。多数买家评价中包含了“消费者常问问题”的回答。比如冰箱,大家可能关心“声音大吗?”、“耗电吗?”、“容量大不大?”,这些问题通常可以在评论区找到其他消费者的使用反馈。这部分信息能够有效地帮助消费者购买到心仪的产品,那么,如何让这些评论匹配到不同人的需求?接下来, 天猫的“大家最关心”告诉你答案。
1336 0
商品评价里藏了一座“宝藏”,阿里工程师如何挖掘?
|
大数据
[转]科创板百日大数据:哪类企业容易过关?
作为中国资本市场的改革试验田,科创板已开市近百日。 百日内,闯关科创板的企业处于什么状态?行业和区域方面是怎样分布的?募集资金属于什么水平? 针对上述问题,创头条记者根据资料对科创板和其受理企业进行梳理,以期多方位展现科创板态势和行业发展走向。
|
程序员
评“产品经理是个什么货色”,互联网营销
  今天无意中看到一篇讲述产品经理的短文“产品经理是个什么货色”,标题的攻击性比较强,原文比较短,故粘贴过来供大家分享,顺便侃侃。   原文如下:    产品经理是个什么货色    在腾讯微博里面看到的    狼太木哥哥转播 : 很强王小楠:别整天产品经理产品经理,你就是个破画图的!    设计你...
1121 0