…一个国家数据科学的挑战建立通过机器学习来促进人类健康
脓毒症2成人住院病人发病和死亡率
介绍
脓毒症病例的早期发现是病人的生死,和关键任务是卫生保健提供者re:质量和成本;同时,这个用例是由欧洲核子研究中心健康事实数据(注:1)这些数据鉴定,2)我们有更完整的信息比门诊住院病人)。我们专注于住院病人和一个更大的覆盖人群脆弱的患者人群样本大小,在一个可能的环境功能小护士/病人比率。
挑战任务和数据
挑战有三个任务:
- 脓毒症2发病风险预测发病前(4小时)
- 30天死亡率风险预测脓毒症患者(发病的时候);和
- 创新对于可解释性
我们包括所有住院成人患者(至少16岁)可疑感染。脓毒症2例必须满足至少2 SIRS标准:
- 体温100.4 >或< 95.0
- RR > 20或PaCO2 < 32毫米汞柱
- 人力资源> 90 /分钟
- 白细胞> 12 k或< 4 k或乐队> 10%
我们排除了患者1)是儿童,和2)一直在医院不到8小时或超过30天。
有三个关键的时间点为每个病人:
我们将提供病人的人口和录取数据的任务。
adm_id | 性别 | 比赛 | admission_type | addission_source | care_setting | age_grp |
---|---|---|---|---|---|---|
A100019 | 男性 | 高加索人 | 选修 | 医生转介 | 护理的定义 | 60 ~ 70 |
A100032 | 女 | 非裔美国人 | 紧急 | 医生转介 | 护理的定义 | 50 ~ 60 |
A100034 | 男性 | 高加索人 | 选修 | 其他/未知 | 护理的定义 | 40 ~ 50 |
A100035 | 男性 | 高加索人 | 紧急 | 其他/未知 | 护理的定义 | 70 ~ 80 |
任务1:脓毒症发病风险预测发病前(4小时)
目标:预测sepsis-2发病4小时之前发生
我们提供临床事件和实验室测试结果之间的T入学
和T发病- 4为每一个病人,在矩阵的格式。时间是抵消T入学。
adm_id | event_time | A / G比值 | ALT /血糖 | AST /血清 | 白蛋白定量 | 白蛋白、血清 | 碱性磷酸盐、血清 | 血清淀粉酶、 | 阴离子间隙 | … |
---|---|---|---|---|---|---|---|---|---|---|
A100008 | 0.5 | 南 | 南 | 南 | 南 | 南 | 南 | 南 | 南 | … |
A100008 | 2.0 | 1.2 | 26.0 | 38.0 | 南 | 2.9 | 75.0 | 南 | 9.0 | … |
A100008 | 3.5 | 南 | 南 | 南 | 南 | 南 | 南 | 南 | 南 | … |
A100008 | 4.0 | 南 | 南 | 南 | 南 | 南 | 南 | 南 | 南 | … |
每个专利标记是否已确定为脓毒症2发作。
adm_id | sepsis2 |
---|---|
A100001 | 0 |
A100002 | 0 |
A100003 | 0 |
A100004 | 0 |
A100005 | 0 |
A100006 | 0 |
总数据大小:
评价:提供标准的AUC,随机样本测试队列。我们将测试:
- 情况和控制部分来自同一病人:长期(> 4小时在脓毒症发病之前)和分割接近脓毒症发病(= 4小时)
- 情况和控制段不同患者脓毒症发病在接下来的4个小时,以及那些没有脓毒症
任务2:30天死亡率风险预测与脓毒症患者2
目标:预测患者是否会死在医院里,30天内使用在脓毒症发病之前48小时的数据。
我们提供T之间的临床事件和实验室测试结果发病- 48和T发病2 - 4为每个脓毒症患者,在矩阵的格式。时间是抵消T发病。
adm_id | event_time | A / G比值 | ALT /血糖 | AST /血清 | 白蛋白定量 | 白蛋白、血清 | 碱性磷酸盐、血清 | 血清淀粉酶、 | 阴离子间隙 | … |
---|---|---|---|---|---|---|---|---|---|---|
A1000019 | -47.5 | 南 | 南 | 南 | 南 | 南 | 南 | 南 | 南 | … |
A1000019 | -46.5 | 南 | 南 | 南 | 南 | 南 | 南 | 南 | 南 | … |
A1000019 | -45.5 | 南 | 南 | 南 | 南 | 南 | 南 | 南 | 南 | … |
A1000019 | -45.0 | 南 | 南 | 南 | 南 | 南 | 南 | 南 | 南 | … |
A1000019 | -44.5 | 南 | 南 | 南 | 南 | 南 | 南 | 南 | 南 | … |
每个专利贴上他们的死亡状态,T之间的时间发病和T放电。
adm_id | 时间 | 死亡率 |
---|---|---|
A100079 | 200.5 | 0 |
A100244 | 78.5 | 0 |
A100328 | 78.5 | 0 |
A100388 | 55.5 | 0 |
A100398 | 117.0 | 0 |
总数据大小:
评价:
累积情况/动态控制民国;法官表现在多个时间戳,看看,多早(相对于死亡率/放电)模型我可以获得一个好的预测从t0 nset
使用R包timeROC评估和比较
https://cran.r-project.org/web/packages/timeROC/index.html
灵敏度C(c t) = P (M我> c | T我< t)
特异性D(c t) = P (M我< c | T我> t)
使用不同的时间被切断t计算AUC(传统方法)允许一个访问模型的性能预测短期、中期和长期死亡率在脓毒症发病风险。
任务3:创新可解释性
虽然许多机器学习模型可以进行分类和回归的任务,并不是所有人实现有效的解释,可能使应用程序的结果更好的通知在临床决策支持。
没有提供可解释性的方法(例如,自动决定阈值,发现模式相结合,设计新颖的可视化,等等),没有从人类专家评估。我们已经组建了一批机器学习和临床专家判断的挑战创新,将专注于可解释性。
提交你的入口
预测结果必须通过SECURESTOR提交提交目录(一个被指定为每个团队)。
任务1,请提交2病人会有脓毒症发病的概率在接下来的4个小时
Task 2,请提交的概率在30天内患者的死亡率
提交必须在CSV(逗号分隔)格式,列标题。下面是示例布局为任务1和2。
adm_id | 概率 |
---|---|
0.98330 | |
A100093 | 0.34455 |
A100044 | 0.12333 |
A100046 | 0.23322 |
规则
规则:
- 参与者不能下载数据集
- 参与者负责任何额外的访问/登录他们的服务器上创建和保持他们的密码的秘密
- 解决方案必须由指定的期限提交所需的格式