【3万患者11万图像14类病理】NIH公开大规模胸部X光数据集

简介:

image

胸部X光检查是最常见而且最具成本效益的医学影像检查之一。但是,胸部X光检查的临床诊断很具挑战性,有时被认为比胸部CT成像更难诊断。过去一些有前景的工作已经被报道过,特别是最近在结核病(TB)分类方面的深度学习工作。由于只有几千张图像被用于学习,在现实世界的医疗中,在胸部X光片的所有数据设置上,实现临床相关的计算机辅助检测和诊断(CAD)仍然是非常困难的,甚至是不可能的。

Openi 是迄今最大的公共胸部X射线数据集,由于只有4143张正面视图的胸部X光片,用于胸部疾病识别的深度神经网络的性能受到严重限制。

在这个数据库中,NIH提供了近期工作中使用数据集的一个增强版本(增加了6个疾病类别和更多的图像),规模大约是Openi的正面胸部X光片数量的27倍。所有数据集是从美国国家卫生临床中心的临床PACS数据库中提取出来的,其中包含了医院所有正面胸部X光片的约60%。

参与这项工作的NIH研究员吕乐博士告诉新智元,胸部X光图像去除病人敏感信息工作量非常大, 类比于在Google Street View里找到人脸和汽车牌照并把它模糊化。

据悉,发布这些数据前,NIH的研究人员通过人工和机器将其仔细审查了至少7遍,最后NIH内部还找了十几位博士生和医生,将11万张图像肉眼过了两遍。这都是为了让全世界的研究人员更好的工作,就像吕乐博士说的那样,“希望大家能够喜欢并enjoy!”

NIH研究人员预期这个数据集相比以前的胸部X光片数据集更能够代表真实的患者群体分布和现实中的临床诊断挑战。这个数据集的规模,从图像总数和胸腔疾病频率来看,也将会更好地促进深度神经网络的训练。

image

image

ChestX-ray数据集包含30,805名患者的112,120张正面视图的X射线图像,以及利用NLP从相关放射学报告挖掘的14类疾病的图像标签(每个图像可以有多个标签)。

数据集含有14类常见的胸部病理,包括肺不张、变实、浸润、气胸、水肿、肺气肿、纤维变性、积液、肺炎、胸膜增厚、心脏肥大、结节、肿块和疝气,这是王瀟崧博士和Yifan Peng、吕乐博士等人CVPR 2017论文中列出的8中常见疾病的扩充(详见下面ArXiv论文)。

CVPR-17 论文及地址:Wang X, Peng Y, Lu L, Lu Z, Bagheri M, Summers RM. ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases. IEEE CVPR 2017(http://openaccess.thecvf.com/content_cvpr_2017/papers/Wang_ChestX-ray8_Hospital-Scale_Chest_CVPR_2017_paper.pdf
ArXiv论文,是CVPR-17论文的扩展,附录中含有14种疾病分布和数据集描述:https://arxiv.org/pdf/1705.02315.pdf
Box图像获取地址: https://nihcc.app.box.com/v/ChestXray-NIHCC

需要注意的是,由于许多原因,原始的放射学报告(与这些胸部X射线研究相关)并不公开分享。文本挖掘疾病标签的准确率预计>90%。

内容:

112120张正面视图的胸部X片图像,PNG格式,分辨率为1024 * 1024(在images文件夹)
所有图像的元数据(Data_Entry_2016.csv):图像索引,标签查找,跟踪#,患者ID,患者年龄,患者性别,以及图像位置。
约1000张图像的边框(BBox_List_2016.csv):图像索引,标签查找,Bbox [x,y,w,h]。[x y]是每个box的左上角的坐标。[w h]表示每个box的宽和高。

局限:

图像标签是利用NLP提取的,因此会出现一些错误的标签,但NLP标签的准确度估计为>90%。
疾病区域的边界框(bounding boxes)数量非常有限。
胸部X线放射学报告预计不会被公开分享。我们鼓励使用这个公共数据集的研究者和研究机构在以后的研究中共享“更新”的图像标签和/或新的边界盒,可能这些是通过人工注释的。

A:14类疾病的共同发生统计数据:

image

 A. 2 chest X-ray数据集中14种胸部疾病的共生矩阵(co-occurrence matrix)

image

B. 常见胸部疾病的8个可视化实例(略)

C.一个样本条目(请注意,原始的胸部x射线放射学报告是不公开分享的)

image

D.使用弱监督深度神经网络的两个疾病定位样本

image
image

以下是吕乐博士今年5月GTC演讲《构建真正大规模医学图像数据集:深度标签发现和开放端识别》的部分PPT,从中可以了解到本次NIH公布的大规模胸部X光数据集背后的具体工作。

image
image
image
image

在诊断中整合机器的决策对人类医生而言很难,好的医生不愿意用,不好的医生不知道怎么用。因此,必须要有更好的人机协作诊断过程。尤其是在精准医疗中,需要新的成像生物标记来更好的协助人类医生做出精准的判断,还需要具体到患者级别的相似度抽取系统,让个性化诊疗成为可能。

与此相关的有三大关键,一是计算机辅助检测和诊断,二是在医疗图像分析中的语义分割,三是在真正大规模数据集上的深度信息挖掘(包括文本和图像)。

image
image
image
image
image
image
image
image

在攻克放射医学问题的道路上,可用医学图像数据集稀少成了一个重大问题。而研究人员也一直致力于提供更好的解决方案。

image
image

王瀟崧博士、Yifan Peng、、Hoo-chang Shin、吕乐博士等人一直在从事相关的研究。

image
image
image
image

下面这篇CVPR-17论文就是本次NIH公布的X光图像数据集的基础。

image
image
image
image
image
image
image
image
image

在现有成果的基础上,我们也能看到未来的挑战和研究方向:提升图像标记的精度,提升多标签分类的精度,以及提升定位的精度。

挑战虽多,成果更大,也欢迎你的加入!

image
image
image
image
image
image

原文发布时间为:2017-10-01

本文作者: 闻菲

本文来自云栖社区合作伙伴“新智元”,了解相关信息可以关注“新智元”微信公众号

原文链接

相关文章
|
6天前
|
数据可视化 数据挖掘
singleCellNet(代码开源)|单细胞层面对细胞分类进行评估,褒贬不一,有胜于无
`singleCellNet`是一款用于单细胞数据分析的R包,主要功能是进行细胞分类评估。它支持多物种和多分组分析,并提供了一个名为`CellNet`的类似工具的示例数据集。用户可以通过安装R包并下载测试数据来运行demo。在demo中,首先加载查询和测试数据,然后训练分类器,接着进行评估,包括查看准确率和召回率的曲线图、分类热图和比例堆积图等。此外,`singleCellNet`还支持跨物种评估,将人类基因映射到小鼠直系同源物进行分析。整体而言,`singleCellNet`是一个用于单细胞分类评估的综合工具,适用于相关领域的研究。
20 6
|
6天前
|
数据可视化 安全
游客森林公园游憩需求调查数据回归模型和可视化分析
游客森林公园游憩需求调查数据回归模型和可视化分析
|
6天前
马尔可夫转换模型研究交通伤亡人数事故时间序列预测
马尔可夫转换模型研究交通伤亡人数事故时间序列预测
|
8天前
R语言马尔可夫转换模型研究交通伤亡人数事故预测
R语言马尔可夫转换模型研究交通伤亡人数事故预测
10 0
|
1月前
|
机器学习/深度学习 数据采集 算法
机器学习赋能乳腺癌预测:如何使用贝叶斯分级进行精确诊断?
机器学习赋能乳腺癌预测:如何使用贝叶斯分级进行精确诊断?
36 0
|
2月前
|
机器学习/深度学习 编解码 算法
基于遥感影像的分类技术(监督/非监督和面向对象的分类技术)
基于遥感影像的分类技术(监督/非监督和面向对象的分类技术)
36 0
|
4月前
|
移动开发 资源调度 监控
社交网络分析5:社交网络信息传播动力学。信息传播 、传染病模型、博弈模型和物理系统模型 、传播动力学分析 、 未来发展趋势与展望
社交网络分析5:社交网络信息传播动力学。信息传播 、传染病模型、博弈模型和物理系统模型 、传播动力学分析 、 未来发展趋势与展望
246 0
|
5月前
|
SQL 机器学习/深度学习 开发框架
【网安AIGC专题10.25】8 CoLeFunDa华为团队:静默漏洞检测(识别+多分类)+数据增强、样本扩充+对比学习+微调+结果分析(降维空间,分类错误样本归纳,应用场景优势,有效性威胁分析)
【网安AIGC专题10.25】8 CoLeFunDa华为团队:静默漏洞检测(识别+多分类)+数据增强、样本扩充+对比学习+微调+结果分析(降维空间,分类错误样本归纳,应用场景优势,有效性威胁分析)
128 0
|
6月前
|
机器学习/深度学习 算法 数据挖掘
高血压疾病预测模型构建研究与应用
高血压疾病预测模型构建研究与应用。
109 0
|
10月前
|
传感器 数据采集 人工智能
人体行为足力特征分析及其应用研究_kaic
随着社会现代化的发展和科技的不断进步,我国航天事业蓬勃发展,与此同时产生了很多亟待解决的难题,康复医疗成为航天医学和康复领域的重要课题之一。载人航天实践证明,失重对航天员生理功能有很大影响,这不仅涉及到航天员完成任务的安全性,同时会制约航天员返回地球后的再适应能力。这种因失重产生的生理问题与老年人的生理机能退化有相似之处,老年人摔倒是社会迫切需要面对的另一重大社会问题。老年人群体的跌倒发生率最高且后果严重,这不仅会导致高龄老年人安全感的严重缺失,还会大量消耗医疗服务资源。因此,开展助老防摔装备的研究是目前医疗和社会领域的必要发展方向,它有助于减少老年人跌倒所带来的生命危险.。

热门文章

最新文章