发布时间:2017-08-21
腾讯于近期发布的医学AI产品腾讯觅影,包含了6个人工智能系统,涉及的疾病有食管癌、肺癌、糖网病、宫颈癌和乳腺癌。
腾讯优图高级研究员孙星以肺癌识别和糖尿病视网膜病变的筛查技术为例,讲述了优图实验室在这两大领域的研究状况。
肺癌识别
孙星首先谈到,对比中、美、英三国的肺癌发生率和死亡率就会发现,国内肺癌发生率其实低于英、美,但死亡率却已超过英美,反映出中国肺癌致死率很高。一个重要原因是,当诊断出患者有肺癌后,70%已到中晚期,错过了最佳诊断和治疗时间。
因此肺癌早筛在国内是一件刻不容缓、继续解决的任务。
早筛是减少肺癌死亡率的重要手段,癌症早起多表现为肺部结节。
这些肺部结节的尺寸往往非常小、对比度很低、抑制化特别高,因此筛查工作都是由影像科专家去完成。但每个病人肺部CT的扫描图片数目经常会超过200层,因此当遇到大量病者,人工阅片越来越耗时、耗力。
另一方面,微小肺部结节在影像学的表现可能与其他组织或部位产生混淆,比如和一些毛细血管、结核、假瘤混淆,也会影响到医生的判断。
腾讯优图实验室希望帮助医生能够尽快、尽早去检测出肺结节的区域,同时协助医生做更准确的判断。
腾讯优图的解决方法
腾讯优图在肺癌识别的核心算法首先进行预处理。
孙星谈到,当得到一些脱敏肺部CT影像后,会提取其中的一个胸腔区域。在3D上分割出这块胸腔区域,然后利用图像识别传递出肺部的3D数据,经过图像增强算法,增强肺部区域中肺结节位置的对比度,从而更好地帮助做肺癌早期的筛查工作。
这种方法的主要优势在于,通过三维分割和重建,处理不同成像设备产生的不同成像图片。
AI影像团队不可避免这种情况:有些医院的CT设备比较先进,它拍一次CT可产生200层甚至更多切片,精度很高。但在很多设备比较落后的基层医院,拍一次CT,往往可能只有40-50层。
因此,对于不同的设备,优图的算法也有着较强的适应性。
另外,优图团队的核心算法不同于传统医学图像处理方法,我们通过端到端一体化肺癌分类算法,输入已经处理好的3D肺部图像,预估肺结节的大致位置。通过提取这些肺结节位置,再考虑整个病人肺部的全局信息,从而更好地判断病人患有肺癌的风险。
多尺度、多任务的3D卷积神经网络是帮助实现早期微小肺结节检测的核心技术,这项技术既可协助我们关注到微小结节局部区域的特征信息,同时又可结合患者在整个肺部的全局信息,做出更好的预测。
除了核心技术外,更重要的就是数据。
数据收集与训练
孙星继续谈到,优图从各个数据集中精心收集了两个非常重要的数据集。
一个是拥有肺结节检测标签的数据集,利用有超过4000例患者的数据,超过30万张CT影像,而且均有医生在肺结节区域的标注,这些大量标注信息可帮助我们更好识别出肺结节的位置。
但光有这些标注过的肺结节数据还不够,因为我们知道再好的医生都会存在误判的情况,而且这批数据大部分由普通医生标注。
为此,我们增加了一个新的肺癌诊断数据库,有超过1300例病人样本,每个样本都有病人的病理诊断结果或随访结果,以保证这是一个精标准的数据。
优图团队通过把自己的算法、大量人工标注数据和少量高精度标准数据相结合,最终做出超过普通医生水平的标准。
在肺结节检测的数据库方面,腾讯优图团队大部分数据均为35毫米以下的小结节,与早筛目的相符合。在这些数据里,10毫米以下的小结节占75%,使得训练的模型可更具针对性地去解决那些微小结节产生的问题。
同时,除了刚刚收集的一些数据库外,腾讯还进行多中心合作,得到国内不少临床实验数据,更加了解中国人的肺,做好肺癌的早期筛查工作。
三个不同的数据集都有一个良恶性的细分标签,比如良性里面会有炎性假瘤、肺结核等。
恶性也会有一些鳞癌、腺癌、小细胞癌,这些细分的标签帮助算法需要有更强的泛化能力,同时也可更到位地解决一些疑难杂症中的问题。比如在一些基层医院,之前都没碰到过的一些疑难杂症,在我们的算法里已经被很好地训练过。
成果
在具体的成果上,优图团队在早期肺癌上的准确率可达80%,在良性结核的准确率也可达84%。在部分疑难杂症、比较难判断的情况下,已经超过普通医生的平均水平。
后续优图的医疗AI也将在本月和多家三甲医院合作落地,如广东省人民医院、广东省第二人民医院。
糖尿病视网膜筛查
除了肺癌筛查,孙星也简单介绍了他们团队在糖尿病视网膜筛查的工作。
孙星介绍到,2015年国际糖尿病联盟发现有4亿多的成人患有糖尿病。预计2040年,将会高达6.4亿,其中高达30%-50的糖尿病患者都会患有糖尿病视网膜病变,其中患有糖尿病视网膜病变中有一成的患者将会面临失明的风险,人群数很有可能高达2500万人。
从上述的数据显示,糖网是一个非常严重的问题,对于成年人来说,糖网也是第一大致盲因素,接近四分之三的10年糖尿病患者都会患有糖网。
虽然问题严峻,但是值得庆幸的是,如果糖网在早期能够被检测出来,也有95%的希望去阻止失明的发生。所以对于糖尿病视网膜病变来说,早筛工作非常重要。
优图实验室现在主要给糖网分为5期,第一是没有病变,然后是轻度病变、中度病变、重度病变、增殖性病变、目前没有细分的病变。
但是如果真正做到早筛,对于医生来说具有一定的难度。
为此,优图专门找了一些开源数据集,收集3万张有标签的眼底数据,随机分割,把它分为80%的训练集和20%的验证集,通过一体化视网膜病变的网络,在训练集和验证集都得到了超过95%的准确率。
这里存在两个情况,一个是我们会认真判断正常和患病的情况,它的横坐标代表的是一个患病样本的误检率,纵坐标是一个正常样本的召回率。
现在在1%误检率的情况下,可达到90%正常样本的召回率。而对于非增殖和增殖眼底的大样本情况,也可以达到很高的准确率。同样,优图实验室也收集了一批临床实验的数据去验证算法,患病的召回率可达到近96%的水平,对于非增殖的和增殖的算法准确度也达73%。
高准确率的背后还有一段路要走
腾讯优图作为AI基础研究团队,从跨界的角度讲,在这两大医学领域无疑取得了较好的成绩,但后面的路仍道阻且长。
雷锋网也发现,市场上绝大多数初创影像公司都在做肺结节和眼底方向的研究。
科大讯飞智慧医疗事业部总经理陶晓东曾向雷锋网透露,在肺结节这块虽然大家都在说自己有着百分之九十几的准确率,但首先要问个问题,为什么大家都在做肺结节?这实际上可以反映出一个现状:大家的创新能力还不够,而且大家能够得到的资源都很相似,因为肺部CT公开的数据最多。
除此之外,智能影像诊断到临床还有非常长的路要走。
广东省人民医院放射科刘再毅教授谈到,要真正应用在临床,需要解决它的精度、实用范围和政策等问题,如果要政策批准,必须经过临床试验验证,耗资会很巨大。
很多研究员和影像科医生也针对这个问题发表了自己的看法:即便技术能达到99.99%,那万一不幸的是,某个病人正好是那0.01%,最后是医生来负责,还是AI来负责,这也是一个很重要的课题。
来源:雷锋网