`
猫耳呀
  • 浏览: 165849 次
社区版块
存档分类
最新评论

机器学习能诊断病情,还能预测患者出院后的情况?

阅读更多
摘要: 机器学习正逐渐改变着各行各业,医疗行业也处于变革之中。想不到机器学习不光能诊断患者病情,还能预测患者出院后的情况呢,这个研究方向有点意思,感兴趣的读者快来瞅瞅吧!
 
       随着数据量以及计算机性能的不断提升,机器学习技术正逐渐渗透于各行各业中。计算机视觉、自然语言处理、机器人等领域基本上已经被机器学习算法垄断,正逐步向教育、银行、医疗等传统行业扩张。关于机器学习如何改变传统教育模式,可以参见博主的这篇文章《使用AR、AI以及大数据改革教育体系——为每位学生打造自己的私人定制学习路线》。银行业目前对人工智能炒作成分居多,大多数银行持观望态度,短时间不会利用人工智能取代大部分银行职员工作。医疗行业应用AI也比较火热,比如利用AI检测癌症驱动新药发现引擎基因检测等。而脓毒症(Sepsis)是一种医疗行业常见的并发症,本文将使用机器学习预测脓毒症患者的出院后情况。
 
       脓毒症是指因感染因素引起的全身炎症反应综合征,严重时可导致器官功能障碍或循环障碍,是严重创伤、烧伤、休克、感染和外科大手术等常见的并发症,因为其症状和发烧、低血压等其它常见疾病非常相像,很难被早期发现,如果不及时治疗,可进一步发展为感染性休克,其住院死亡率超过40%,相当危险。
 
       了解脓毒症患者的最高死亡风险对临床医生的优先护理是有帮助的。团队与Geisinger健康护理系统的研究人员合作,使用历史电子健康记录数据(EHR)建立模型来预测脓毒症住院患者在住院期间或出院后90天的全因死亡率(all-cause mortality)。该模型可以指导医疗团队为那些预测为高概率死亡的患者进行仔细监测,并采取有效预防措施。
 
数据科学环境
 
       使用IBM数据科学经验为数据科学家提供编程环境(三种流行编程语言:Python、Scala和R,两种编程分析工具:Jupyter和Zeppelin),此外,IBM数据科学经验通过业务应用程序实时或批量计分来操作模型,为连续模型检测和再训练集成反馈回路。
 
收集和预处理数据
 
       Geisinger在2006年~2016年获得了超过10000名确诊为败血症的患者数据,这些数据包含人口统计学、住院和门诊、外科手术、医疗史、药物、医院单位之间转移以及实验室结果等记录。
 
       对于每名患者,选择最近的医院和最相关的住院数据,包括住院期间具体的信息,比如手术类型、培养位置(细菌)等。此外,还导出了入院前的总结信息,比如住院前30天的外科手术次数等,没有使用出院后的数据。图1给出了这些基于时间数据的决策:
 
图1 基于时间序列数据做预测
 
       合并所提供的数据集后,得到的数据集包括10599行,其中每名患者有199个属性(特征)。
 
预测模型
 
       在数据清洗和特征选择完成后,将任务目标定义为二分类问题:预测脓毒症患者出院后90天内是否死亡。
 
       选择的算法为梯度提升树(Gradient boosted trees, GBT),并通过XGBoost数据包实现。由于爱算法的良好的执行速度和鲁棒性,一直是机器学习竞赛中流行使用的算法。使用XGBoots另一个动机是微调超参数以提升模型性能的能力。在训练数据中,使用十折交叉验证(ten-fold cross-validation)和网格搜索(GridSearchCV)以迭代的方式选择参数,以最大化ROC曲线下的面积(AUC)。IBM数据科学经验中的一个实例在此可见
 
       将数据集分为训练集和测试集,其中训练集占60%,测试集占40%。使用训练集训练模型,将训练好的模型参数应用于测试集上,模型性能如图2所示:
 
图2 XGBoost模型的性能
 
       图2中的一些数据是性能评价指标,比如AUC得分,这个数字越接近于1,则表示模型的能力越能正确的分类正预测(TP),从而减少假阳性。测试结果AUC数据为0.8561,表明模型能够识别出绝大多数脓毒症患者90天内是否死亡,如果预测为死亡,则这些患者可以进行适当的靶向治疗。
 
       对于精确率(precision)和召回率(recall),数字越接近于1,表明模型越精确。图2中显示的数据为接近于0.80,即赞成高召回率——目的是尽量减少该模型遗漏最终可能因脓毒症死亡的患者数量。
 
       对于另外的一个评价指标准确度(Accuracy),使用bootstrap对训练和测试数据生成1000个变体,然后在这些数据上运行XGBoost模型,并获得每次运行的模型准确率,1000次运行结果的准确度分布为0.77~0.79之间的概率为95%,这意味着建立的模型能够识别出超过四分之三的真实结果。
 
       除了以上评价指标外,模型的混淆矩阵(confusion matrix)如图3所示。从图中可以看到,对于测试数据,模型确定了1190例患者为真阳性(预测为死亡的脓毒症患者死亡)和2087例患者为真阴性(预测为生存的脓毒症患者存活)。
 
图3 阴阳性预测
 
       XGBoost还具有确定特征的能力,这种能力并不告知选择的特征是否为死亡或生存的预测因子,但XGBoost生成的信息仍然非常有用,因为可以了解到哪些特征是用于预测死亡的。如图4所示,29.5%的患者都使用“入院年龄”特征来预测死亡。
 
图4 模型最重要的20个特征
 
       对特征进一步的探索分析,以测试特征如何与死亡结果相对应。虽然上图有助于可视化特征与结果的关系,更重要的是要了解XGBoost训练多个决策树的机制。因此,在探索过程中,XGBoost模型中的重要特征可能与这些结果变量没有明显关系。
 
       如图5所示,诸如“入院年龄”的特征可能表明老年患者相较于年轻患者而言具有更高的死亡比例,另一个例子“血管升压药使用时间”特征可能表明服用升压药的患者死亡率较高,但这些死亡也可能是由于其不好的健康状况导致。
 
图5 与患者死亡有关的一些重要特征
 
       XGBoost输出的决策树规则可以帮助医生进一步了解如何针对患者制定治疗方案。比如,由于老年患者较高的死亡风险,医疗团队可以特别关注老年患者,检测所服用的血管升压药的持续时间、尽量减少患者在各科室之间转移的次数以减少对易感染患者的影响等。
 
结论
 
       预测脓毒症患者的全因死亡可指导健康提供者主动监测并采取预防措施以提升患者的存活率。在本文模型中,选择了那些被认为与脓毒症患者死亡有关的重要特征,即机器学习模型可以帮助识别与脓毒症死亡相关联的变量。后续随着数据量的增加,将添加一些更关键特征来改进模型,也可以将该方法应用于其它病症的预测之中,希望产生一个更具可操作的模型,以改善医疗水平。
 
阅读更多干货好文,请关注扫描以下二维码:
本文为云栖社区原创内容,未经允许不得转载。
分享到:
评论

相关推荐

    Python实现基于机器学习的银行客户认购产品预测项目源码+全部资料.zip

    Python实现基于机器学习的银行客户认购产品预测项目源码+全部资料.zip下载可用。 Python实现基于机器学习的银行客户认购产品预测项目源码+全部资料.zip下载可用。Python实现基于机器学习的银行客户认购产品预测...

    基于机器学习模型的肝脏病诊断预测.pdf

    "基于机器学习模型的肝脏病诊断预测" 本文主要讨论了基于机器学习模型的肝脏病诊断预测,旨在开发一种自动诊断工具,以降低医生的负担,提高诊断准确率和工作效率。通过对肝脏病数据集的分析和处理,提出了四种机器...

    基于机器学习的信息融合故障诊断模型研究.pdf

    3. 机器学习算法:使用机器学习算法对预处理后的数据进行训练和学习,学习故障模式和规律。 4. 信息融合:使用信息融合技术将多种来源的信息集成到一起,实现全面的故障诊断。 5. 故障诊断:使用机器学习算法和信息...

    基于机器学习的肝炎预测与研究.pdf

    本文将机器学习技术应用于肝炎预测和研究,旨在开发一个基于机器学习的肝炎预测模型,以提高肝炎的诊断和治疗效果。 肝炎是一种常见的肝脏疾病,它可以引起肝脏损害、肝硬化和肝癌。根据世界卫生组织的统计,全球约...

    基于CT机器学习模型预测肺腺癌气腔播散.pdf

    研究人员收集了462例肺腺癌患者的影像和临床数据,使用机器学习算法建立预测模型,并对模型的诊断效率进行了评估。结果表明,基于CT机器学习模型可以有效地预测肺腺癌气腔播散状态。 机器学习是人工智能的一个分支...

    基于机器学习算法进行电影票房预测.pdf

    并且,文章还讨论了机器学习算法在电影票房预测中的优点和挑战。 文章的主要贡献是提出了一个基于机器学习算法的电影票房预测模型,该模型能够预测电影票房收入的走势。该模型使用线性回归和xgboost算法来建立预测...

    机器学习在肿瘤早期诊断与预后预测中的应用.pdf

    机器学习在肿瘤早期诊断与预后预测中的应用 机器学习是一种人工智能技术,通过算法和模型来分析和学习数据,从而使机器能够自动地进行决策和预测。在肿瘤早期诊断与预后预测中,机器学习技术可以发挥重要作用,提高...

    基于机器学习的高校就业情况大数据分析及预测.pdf

    基于机器学习的高校就业情况大数据分析及预测 本资源摘要信息旨在通过机器学习算法对高校就业情况进行大数据分析和预测,以帮助高校毕业生更好地选择职业道路,提高高校职业教育水平。 一、机器学习在高校就业情况...

    基于机器学习的心电图诊断研究.pdf

    此外,本研究结果也表明,机器学习在心电图诊断中的应用需要结合临床经验和医生专业知识,确保机器学习模型的结果符合临床实际情况。 本研究结果表明,机器学习在心电图诊断中的应用具有很高的研究价值和应用前景,...

    机器学习算法在冠心病和心梗预测中的应用.pdf

    此外,论文还讨论了机器学习算法在冠心病诊断和风险预测中的优势和挑战,包括数据质量、模型选择、算法优化等方面。论文最后总结了机器学习算法在冠心病诊断和风险预测中的应用前景,认为机器学习算法将在未来对...

    机器学习大作业-预测天气.zip

    在这个“机器学习大作业-预测天气.zip”压缩包中,我们可以推测这是一项关于利用机器学习技术预测天气的项目。这个项目可能包含了一系列的文件,如数据集、代码、报告等,用于展示如何运用机器学习算法对天气进行...

    基于机器学习的汽车发动机故障诊断探究.pdf

    "基于机器学习的汽车发动机故障诊断探究" 根据给定的文件信息,我们可以从中提取以下知识点: 一、机器学习在汽车发动机故障诊断中的应用 机器学习是一种人工智能技术,能够通过对历史数据的分析和学习,进行预测...

    机器学习房价预测数据集源代码.zip

    机器学习房价预测数据集源代码机器学习房价预测数据集源代码机器学习房价预测数据集源代码机器学习房价预测数据集源代码机器学习房价预测数据集源代码。机器学习房价预测数据集源代码机器学习房价预测数据集源代码...

    基于主成分机器学习算法的慢性肝病的智能预测新方法.pdf

    基于主成分机器学习算法的慢性肝病智能预测新方法.pdf 本文概述了一种基于主成分机器学习算法的慢性肝病智能预测新方法。该方法通过将慢性肝病的多项指标属性项降维处理,结合神经网络学习,构建了慢性肝病预测模型...

    基于机器学习方法的PCI术预后主要不良心血管事件预测模型研究.pdf

    本文主要探讨了如何运用机器学习方法来构建一种预测经皮冠状动脉介入术(PCI)术后12个月内主要不良心血管事件(MACE)的风险预测模型。MACE是衡量心血管疾病预后的重要指标,包括心肌梗死、心血管死亡和再次血运...

    基于机器学习的机械故障诊断.zip

    这主要得益于人工智能的快速发展,特别是机器学习算法在模式识别、数据分析和预测能力上的卓越表现。本资料集“基于机器学习的机械故障诊断.zip”旨在深入探讨如何利用这些技术进行有效的设备健康管理。 机器学习是...

    使用机器学习技术预测糖尿病-研究论文

    机器学习方法通​​过从糖尿病患者的诊断医学数据集中构建预测模型来提供有效的结果来提取知识。 从这些数据中获取知识对于预测糖尿病患者很有价值。 在本研究中,使用了六种流行的机器学习技术,即随机森林 (RF)、...

    基于机器学习的MBTI人格预测系统项目

    通过分析个体的语言和行为模式,预测其MBTI人格特征,基于机器学习开发能够对个体人格进行预测的系统。对数据进行清洗,分析数据特征并进行处理,建立人格预测机器学习模型,调整参数优化性能,对模型进行评估;设计...

    利用机器学习技术对心血管疾病进行预测项目

    项目旨在利用机器学习技术对心血管疾病进行预测,通过分析患者的各种生理指标和医疗记录,建立预测模型,为早期诊断和预防心血管疾病提供支持。 该项目的主要特点和功能包括: 数据集处理:项目使用包含患者生理...

Global site tag (gtag.js) - Google Analytics