【Nature重磅】再创纪录!百余家实验室近150位科学家联合开发超级AI系统,精准诊断近100种脑癌

简介: 距离我们上次报道张康教授的重磅AI研究还不到一个月,来自全球100多个实验室的近150位科学家联合在顶级期刊《自然》发文,他们开发了一个超级AI系统,基于肿瘤组织DNA的甲基化数据,可以准确区分近100种不同的中枢神经系统肿瘤。

这个AI系统还能发现一些指南里面没有的新分类。这对于癌症的精准治疗而言,又是个巨大的进步。

33a2235961a65d01e0975f240b843199c93e893a

这项研究一方面能够弥补目前中枢神经系统肿瘤难以诊断的问题,一方面也是为尚不完善的中枢神经系统肿瘤分类做出了极大的贡献。

在诸多癌症中,中枢神经系统肿瘤可以说是最难搞的。目前科学家已经确定的中枢神经系统肿瘤足有100来种[2],它们的临床表现和生物学特性有高度特异性,很难确诊。由于此类肿瘤的分子标志物稀少,目前临床上中枢神经系统肿瘤的诊断核心技术还是基于显微镜的组织学诊断

不过难点在于,很多在显微镜下表现相似的肿瘤,实际上有不同的基因变异特点,这些几乎是很难观察到的,这就给精准诊断带来了极大的困难。虽然FDA已经批准了基于组织病理学切片成像辅助诊断疾病的技术[3],也有很多创业公司开始尝试利用AI分析这些病理图片,辅助医生诊断。然而上面存在的问题依然不能避免。

所以近年来WHO也逐渐在分类标准中增加了分子指标,例如几种与特定脑癌亚型相关的基因变异和甲基化情况。

Andreas von Deimling和Stefan M. Pfister领导的这个国际团队认为,分析癌症的甲基化组是个很聪明的做法,甲基化特征一方面能够标志相应的细胞变化,一方面还能够用于追踪细胞来源,例如用来诊断那些病灶不明的癌症[4]。而且前人的实验也证实了癌症甲基化数据的可靠性,即使在很小的样本中也能够得到重复[5]。现在研究者们要做的就是,在这些零散的数据基础上继续扩大,让癌症甲基化组能够成为一个统一标准的、全方位的诊断和分类工具。

不过这里面有个大问题就是,甲基化数据从哪里来。开发AI系统是需要大量的数据训练算法的,但是限于之前技术不足和高昂的成本,针对某种特定肿瘤的甲基化数据显然是严重不足的,更何况这还是个发病率不是特别高的中枢神经系统肿瘤。

感谢技术的进步。现在科学家已经可以很容易的从经福尔马林固定后石蜡包埋的少量组织(FFPE)中提取DNA,这就解决了实验材料的来源问题。尽管没有足够的肿瘤DNA甲基化数据,但是在全世界的很多实验室和医疗机构中,都保存有FFPE样本。

于是,这个庞大的研究团队开始收集FFPE样本,并用Illumina公司的主流甲基化芯片450K(可分析人体45万个甲基化位点)分析近3000份肿瘤样本的甲基化数据,几乎覆盖了目前WHO分类中全部的中枢神经系统肿瘤种类。此外,为了区分中枢神经系统肿瘤与其他肿瘤和正常脑组织之间的差异,研究团队还分析了部分间充质肿瘤、黑色素瘤、弥漫性大B细胞淋巴瘤、浆细胞瘤以及6种垂体腺瘤,以及健康脑组织的DNA甲基化情况。

b85c753014855a90552b9c0d8120e231d3095cee

决策过程

研究人员把每个样本的几十万个甲基化信息一股脑交给计算机,首先根据WHO的分类以及样本的诊断结果,在有监督的机器学习算法下,分析WHO定义的每类肿瘤的甲基化特征;然后又无监督的机器学习算法再分析一遍,让AI系统总结出自己对中枢神经系统肿瘤甲基化的认知

最后,他们得到了82个中枢神经系统肿瘤甲基化特征,以及9个对照样本的甲基化特征。这91个甲基化特征就是AI系统在WHO定义的指导下,对中枢神经系统肿瘤甲的分类。显然,AI系统对中枢神经系统肿瘤的分类,肯定不可能完全与WHO的分类完全重合。

研究人员把这82个甲基化特征分成了5类。

第一类的29个是完全与WHO的分类匹配的,就是说,AI系统认为这些甲基化特征分别属于某一类肿瘤,按照WHO的分类标准,医生之前的诊断确实也是属于这个分类。第二类也有29个,他们能与WHO分类中的某种肿瘤下面的亚类型匹配

剩下的就是只能部分匹配,或者完全不能匹配。而这些也是研究人员最感兴趣的,他们认为,这一发现可以帮助研究人员更深入的理解中枢神经系统肿瘤

24c68f768670a244031711ef1fa5b62b8fd0779b

a,91个甲基化特征,以及它们所属的5个类别;b,2801个样本的甲基化特征降维数据图

到此,中枢神经系统肿瘤的甲基化特征已经被AI系统提取,加上对照组,一共有91个。显然,如果研究就到此为止的话,使用价值还是有限的。毕竟,人工分析每个样本的甲基化类型与这91个匹配情况是件非常费时费力的事情。

于是,他们把这91个甲基化类型交给了随机森林机器学习算法,开发出一个AI决策系统,只要研究人员将从测序机器上下来的甲基化数据导入这个AI系统,就可以快速判断这个肿瘤属于哪一种

为了验证这些甲基化特征和AI决策系统的准确性。研究者选取了1104份已经组织学和分子生物学诊断的中枢神经系统肿瘤患者组织样本,同时用传统的标准组织病理学分析和这个AI系统进行诊断。

结果,在60.4%的样本上,AI系统和病理学家诊断是一致的。15.5%的样本AI系统和病理学家的也是一致的,只不过AI系统认为,它们应该属于一个更小的亚型

有12.6%的病例,AI系统和病理学家诊断的结果不一致。那到底是AI系统对,还是病理学家对?于是研究人员对这部分样本做了更加深入的分析(例如基因测序),最后惊喜的发现,92.8%的样本是AI系统对了

最后剩余的11.5%的样本,AI系统表示无能为力,不知道该如何分类,仔细分析发现,其中三分之一是罕见肿瘤,可能是前期的样本量不够,导致AI系统无法识别。因此,这部分随着数据的积累,或许可以解决。

3a08e22b3ce9252e54df6d845c2aaec8e4ed5a32

AI系统对病例的识别情况

目前该AI平台已经免费向研究机构开放[6],自2016年上线以来,已经有近万份个体DNA甲基化数据上传!实用性已经得到千余例真实病例的支持。

当然,研究者也提出,甲基化特征还不能作为单一的诊断标准,还需要临床的验证。不过作为研究的工具,它着实将使中枢神经系统肿瘤科研前进一大步。

一方面,统一的、易于使用的标准将使科研变得更加条理分明;另一方面,甲基化组明确的数据特征也便于使用计算机进行分析。有了这项技术,我们对肿瘤的分类将会更具动态并逐渐走向完善,最终带来更加精准、有针对性的治疗方案。


原文发布时间为:2018-03-19

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:【Nature重磅】再创纪录!百余家实验室近150位科学家联合开发超级AI系统,精准诊断近100种脑癌

相关文章
|
1月前
|
机器学习/深度学习 人工智能 监控
AI算法分析,智慧城管AI智能识别系统源码
AI视频分析技术应用于智慧城管系统,通过监控摄像头实时识别违法行为,如违规摆摊、垃圾、违章停车等,实现非现场执法和预警。算法平台检测街面秩序(出店、游商、机动车、占道)和市容环境(垃圾、晾晒、垃圾桶、路面不洁、漂浮物、乱堆物料),助力及时处理问题,提升城市管理效率。
AI算法分析,智慧城管AI智能识别系统源码
|
1月前
|
机器学习/深度学习 人工智能
谷歌发AI足球教练模型TacticAI 登Nature子刊
【2月更文挑战第30天】谷歌DeepMind与利物浦FC合作开发的TacticAI是一款人工智能足球战术助手,能分析角球战术并提供建议,已在《Nature Communications》发表。利用图机器学习和几何深度学习,TacticAI预测角球战术并在90%情况下优于传统方法。该系统有助于教练制定精准战术,但实际比赛中的适应性和数据隐私限制了其潜力的完全发挥。
38 2
谷歌发AI足球教练模型TacticAI 登Nature子刊
|
1月前
|
人工智能 自然语言处理 数据处理
英伟达推出NeMo,极大简化自定义生成式AI开发
【2月更文挑战第30天】英伟达发布NeMo平台,简化生成式AI模型开发,加速AIGC进程。平台提供NeMo Curator、Customizer和Evaluator微服务,覆盖数据准备至模型评估全周期。Curator加速数据处理,Customizer支持模型微调,Evaluator全面评估模型性能。虽有学习曲线挑战,但NeMo为AI创新与应用带来更多可能性。
39 2
英伟达推出NeMo,极大简化自定义生成式AI开发
|
1月前
|
机器学习/深度学习 人工智能 边缘计算
AI技术在医学影像诊断中的应用
传统的医学影像诊断需要耗费大量时间和人力,而随着人工智能技术的发展,AI在医学影像诊断中的应用也日益广泛。本文将探讨AI技术在医学影像诊断中的应用现状和未来发展,以及其对医疗行业的深远影响。
30 1
|
5天前
|
人工智能 前端开发 Java
Java语言开发的AI智慧导诊系统源码springboot+redis 3D互联网智导诊系统源码
智慧导诊解决盲目就诊问题,减轻分诊工作压力。降低挂错号比例,优化就诊流程,有效提高线上线下医疗机构接诊效率。可通过人体画像选择症状部位,了解对应病症信息和推荐就医科室。
37 10
|
6天前
|
人工智能
【强大的cursor_不懂就问AI工具做开发的AI助手技巧分享——一定要去试试!!!】
【强大的cursor_不懂就问AI工具做开发的AI助手技巧分享——一定要去试试!!!】
|
12天前
|
机器学习/深度学习 人工智能 安全
Azure Databricks实战:在云上轻松进行大数据分析与AI开发
【4月更文挑战第8天】Databricks在大数据分析和AI开发中表现出色,简化流程并提高效率。文中列举了三个应用场景:数据湖分析、实时流处理和AI机器学习,并阐述了Databricks的一体化平台、云原生弹性及企业级安全优势。博主认为,Databricks提升了研发效能,无缝集成Azure生态,并具有持续创新潜力,是应对大数据挑战和加速AI创新的理想工具。
36 0
|
16天前
|
机器学习/深度学习 人工智能 运维
构建未来:AI驱动的自适应网络安全防御系统
【4月更文挑战第7天】 在数字时代的浪潮中,网络安全已成为维系信息完整性、保障用户隐私和确保商业连续性的关键。传统的安全防御策略,受限于其静态性质和对新型威胁的响应迟缓,已难以满足日益增长的安全需求。本文将探讨如何利用人工智能(AI)技术打造一个自适应的网络安全防御系统,该系统能够实时分析网络流量,自动识别并响应未知威胁,从而提供更为强大和灵活的保护机制。通过深入剖析AI算法的核心原理及其在网络安全中的应用,我们将展望一个由AI赋能的、更加智能和安全的网络环境。
28 0
|
26天前
|
机器学习/深度学习 数据采集 人工智能
AI技术在医疗诊断中的应用与挑战
在当今信息时代,人工智能技术已经在医学领域展现出巨大的潜力和前景。本文将探讨人工智能在医疗诊断中的应用现状和未来发展,以及所面临的挑战和解决方案。
|
1月前
|
人工智能 JSON 运维
AI大模型运维开发探索第三篇:深入浅出运维智能体
大模型出现伊始,我们就在SREWorks开源社区征集相关的实验案例。玦离同学提供了面向大数据HDFS集群的智能体案例,非常好地完成了运维诊断的目标。于是基于这一系列的实验和探索。本文详细介绍智能体在运维诊断中的应用探索。