Python搭建新冠肺炎预测模型全解读

简介: 新冠病毒疫后复工成为当务之急,然而病毒尚未消散,风险权衡面临不确定因素。传统机器学习模型虽然可以精确拟合历史数据,但由于脱离疾病传播机理,外推预测的可靠性低。与以往的疾病传播模型不同,南栖仙策的模型对病情的发展进行建模,能够更好的模拟潜伏期、无症状感染者。

新冠病毒疫后复工成为当务之急,然而病毒尚未消散,风险权衡面临不确定因素,如果可以准确预测未来的疫情走势,将会为复工计划的制定提供有效辅助。

传统机器学习模型虽然可以精确拟合历史数据,但由于脱离疾病传播机理,外推预测的可靠性低。另一方面,传染病学领域提出的传播模型则恰好相反,主要依赖疾病传播机理进行推演,但对历史数据的拟合能力弱,不同疾病会得到相似的结论,特异性不足。

近日,南栖仙策通过强化学习融合传染病传播机理与数据拟合,使用其自主研发的Universe平台构建传播模型,并基于横琴先进智能计算平台提供人工智能计算资源,实现新冠病毒疫情长达60天的预测,可为疫情防控提供决策辅助。

在线预览预测结果:
http://ncov.polixir.ai

值得注意的是,目前AI领域常用的深度学习模型是黑盒模式,内部运算过程难以被人们理解,同时也难以将人类总结的知识注入模型中。南栖仙策构建的模型,则是基于Python代码搭建模型框架,代码中留有多个待定参数,再由系统从历史数据中最终确定这些参数,完成模型的训练。

如此一来,模型的运行过程完全可以被人理解,并且可以通过编写代码将人们的知识写入模型。与以往的疾病传播模型不同,南栖仙策的模型对病情的发展进行建模,能够更好的模拟潜伏期、无症状感染者。最后,基于强化学习与横琴先进智能计算平台充裕的智能算力,传播模型可以在仅有确诊病例数据的情况下,推导潜在感染人数、接触感染率等未知因素,因而可以在不同防控力度的预置条件下进行长期预测。

模型拟合数据走势:非以往的传播模型输出简单的光滑曲线

基于1月17日至2月17日的公开数据训练模型,可以观察到模型对数据的学习能力。下图分别以新加坡、日本和两个沿海经济大省的数据为例,对比实际数据与模型的学习结果。可见,模型并没有如同以往的传播模型输出简单的光滑曲线,而是更加符合数据的走势。image.png
image.png
image.png
image.png

海外疫情形势严峻,尤其是日本

传播模型可以持续运行至未来60天,并且模型中的一个重要参数,每日人均接触人数,可以成为防控调整的重要决策变量。防控力度越强,人均接触人数越少,反之则越多。因此借助模型的推演能力,可以预测在不同防控力度下病情的未来发展。新加坡和日本两国,目前尚未采取有力防控措施。下面对两国无防控情况,以及三种不同力度人均接触人数进行推演。
image.png
上图可见,对新加坡来说,如果不加防控,按照推演结果,30天内,累计确诊人数增长了4倍,日增感染人数增长了2倍多,潜伏的感染人数增长了4倍。60天内确诊人数将爆炸式增长。管控力度做到人均接触15人可以减缓确诊人数的增长速率,但仍不能达到阻断疫情的效果;如果将管控力度做到人均接触10人或者5人以内,则确诊人数将持续下降。人均接触人数从10降至5,将会使疫情结束日期提早30天左右。
image.png
日本的疫情较新加坡更为严重。如果不加防控,30天内累计确诊人数可增长10倍,并持续加速。与新加坡类似,如果将管控力度做到人均接触10人或者5人,则疫情将得以控制。人均接触5人的管控效果将更加显著。

从新加坡和日本政府角度看,如果采取不加防控的态度,疫情恐怕会发展到难以控制的地步,届时对经济同样带来致命的杀伤,同时还会让国民付出生命的代价。

新冠病毒为何会有如此快速的传播能力?其中一个关键原因在于病毒感染后潜伏期可达14天甚至更长,并且在潜伏期内也可具有传染性。毫无症状的潜伏感染者使得病毒的传播神出鬼没。南栖仙策模型中对病程发展进行了建模,因而可以观察到模型对于潜伏感染规模的推断。
image.png
image.png
上图显示了历史日期范围以及未来60天的潜伏感染人数。从图中推断,当下新加坡可能已有接近150人的潜伏感染,日本的潜伏感染则可能达到500人。这些潜伏感染人群中,一部分人可完全没有任何症状,但都将成为病毒的传播载体,造成更大范围的传染。

总的来说,如果新加坡和日本不采取严格的防控隔离措施,未来恐怕有爆发的可能。

国内疫情防控效果显著,结束隔离指日可待

我国采取的防疫隔离措施已经取得了明显的成效,新增确诊人数逐日下降。下图以两大省份为例,推演了在两种管控力度(即每日人均接触人数为10人和5人)下,进行未来60天的疫情变化。
image.png
可见,在每日人均接触人数控制在5人以下时,有望在未来1周内新增确诊人数下降至个位数,4周完全结束疫情。而更松的管控力度,可能造成疫情结束日期后延。

复工后需加强防控,逐步有序复工效果更佳

当前国家采取了强力的防控政策显然是一个正确的决策,将迅速扑灭疫情。管制措施在抑制疫情的同时也会抑制经济发展,恢复经济活动又势必促进人员接触,增加疫情风险。借助模型的推演能力,我们可以预测不同的复工时间对疫情的影响。

为模拟复工情况,设置复工前每日人均接触人数不超过5人,而复工后为15人,分别选择2月20日、2月24日、2月28日和3月2日四个复工日期为例,在复工当天提升接触人数,下图显示了疫情的变化。显然,推迟复工时间有利于控制疫情,但经济损失也更大。逐步复工则是更能平衡疫情控制与经济恢复的手段。通过阶段提升指接触人数模拟逐步复工,在以上四个复工日期逐步将接触人数增加到7、9、11、13。下图可以观察到,阶段提升接触人数的曲线,仍然可以有效控制疫情,也有利于尽早恢复经济生产活动。
image.png
上图也可以观察到,不同的省份之间存在一定,应结合更多信息,针对性的制定复工计划。预测结果同时也提示疫情尚未结束,复工需加强防护,正确口罩佩戴、加强日常消毒,尽量减少不必要的人员接触。潜伏感染人员仍然存在,不可放松警惕。


本文转载自公众号:新智元
原文链接:https://mp.weixin.qq.com/s/07aNjJvohxSEGNElP5gHAA
封面来源:新智元


阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区,定期推送精彩案例,技术专家直播,问答区近万人Spark技术同学在线提问答疑,只为营造纯粹的Spark氛围,欢迎钉钉扫码加入!image.png

对开源大数据和感兴趣的同学可以加小编微信(下图二维码,备注“进群”)进入技术交流微信群。image.png

相关实践学习
数据湖构建DLF快速入门
本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析,介绍数据湖构建DLF产品的数据发现和数据探索功能。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
23小时前
|
机器学习/深度学习 算法 搜索推荐
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
26 12
|
1天前
|
机器学习/深度学习 算法 vr&ar
PYTHON用时变马尔可夫区制转换(MARKOV REGIME SWITCHING)自回归模型分析经济时间序列
PYTHON用时变马尔可夫区制转换(MARKOV REGIME SWITCHING)自回归模型分析经济时间序列
10 4
|
4天前
|
数据可视化 Python
Python模型评估与选择:面试必备知识点
【4月更文挑战第17天】本文深入探讨了Python模型评估与选择在面试中的关键点,包括性能度量、过拟合与欠拟合识别、模型比较与选择、模型融合和偏差-方差权衡。强调了避免混淆评估指标、忽视模型验证和盲目追求高复杂度模型的常见错误,并提供相关代码示例,如交叉验证、网格搜索和超参数调优。通过理解这些概念和技巧,可在面试中展示出色的数据科学能力。
31 12
|
6天前
|
机器学习/深度学习 数据可视化 Linux
python用ARIMA模型预测CO2浓度时间序列实现
python用ARIMA模型预测CO2浓度时间序列实现
20 0
|
6天前
|
Python 数据可视化 索引
PYTHON用GARCH、离散随机波动率模型DSV模拟估计股票收益时间序列与蒙特卡洛可视化
PYTHON用GARCH、离散随机波动率模型DSV模拟估计股票收益时间序列与蒙特卡洛可视化
20 0
PYTHON用GARCH、离散随机波动率模型DSV模拟估计股票收益时间序列与蒙特卡洛可视化
|
6天前
|
机器学习/深度学习 Python 数据处理
Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力负荷数据
Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力负荷数据
30 0
Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力负荷数据
|
6天前
|
数据挖掘 vr&ar Python
Python金融时间序列模型ARIMA 和GARCH 在股票市场预测应用
Python金融时间序列模型ARIMA 和GARCH 在股票市场预测应用
32 10
|
6天前
|
机器学习/深度学习 存储 算法
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
26 7
|
7天前
|
vr&ar Python
Python 用ARIMA、GARCH模型预测分析股票市场收益率时间序列4
Python 用ARIMA、GARCH模型预测分析股票市场收益率时间序列
30 0
|
6天前
|
机器学习/深度学习 算法 数据可视化
python用支持向量机回归(SVR)模型分析用电量预测电力消费
python用支持向量机回归(SVR)模型分析用电量预测电力消费
27 7