挑战用例任务- DII挑战威廉姆斯学院生物医学信息学UTHealth休斯顿

…一个国家数据科学的挑战建立通过机器学习来促进人类健康

脓毒症2成人住院病人发病和死亡率

介绍

脓毒症病例的早期发现是病人的生死,和关键任务是卫生保健提供者re:质量和成本;同时,这个用例是由欧洲核子研究中心健康事实数据(注:1)这些数据鉴定,2)我们有更完整的信息比门诊住院病人)。我们专注于住院病人和一个更大的覆盖人群脆弱的患者人群样本大小,在一个可能的环境功能小护士/病人比率。

挑战任务和数据

挑战有三个任务:

脓毒症2发病风险预测发病前(4小时)
30天死亡率风险预测脓毒症患者(发病的时候);和
创新对于可解释性

我们包括所有住院成人患者(至少16岁)可疑感染。脓毒症2例必须满足至少2 SIRS标准:

体温100.4 >或< 95.0
RR > 20或PaCO2 < 32毫米汞柱
人力资源> 90 /分钟
白细胞> 12 k或< 4 k或乐队> 10%

我们排除了患者1)是儿童,和2)一直在医院不到8小时或超过30天。

有三个关键的时间点为每个病人:

T_入学:时间的病人被送进医院

T_发病:败血症2开始的时间是确定的病人

T_放电:时间在病人出院了

我们将提供病人的人口和录取数据的任务。

adm_id	性别	比赛	admission_type	addission_source	care_setting	age_grp
A100019	男性	高加索人	选修	医生转介	护理的定义	60 ~ 70
A100032	女	非裔美国人	紧急	医生转介	护理的定义	50 ~ 60
A100034	男性	高加索人	选修	其他/未知	护理的定义	40 ~ 50
A100035	男性	高加索人	紧急	其他/未知	护理的定义	70 ~ 80

任务1:脓毒症发病风险预测发病前(4小时)

目标:预测sepsis-2发病4小时之前发生

我们提供临床事件和实验室测试结果之间的T_入学

和T_发病- 4为每一个病人,在矩阵的格式。时间是抵消T_入学。

adm_id	event_time	A / G比值	ALT /血糖	AST /血清	白蛋白定量	白蛋白、血清	碱性磷酸盐、血清	血清淀粉酶、	阴离子间隙	…
A100008	0.5	南	南	南	南	南	南	南	南	…
A100008	2.0	1.2	26.0	38.0	南	2.9	75.0	南	9.0	…
A100008	3.5	南	南	南	南	南	南	南	南	…
A100008	4.0	南	南	南	南	南	南	南	南	…

每个专利标记是否已确定为脓毒症2发作。

adm_id	sepsis2
A100001	0
A100002	0
A100003	0
A100004	0
A100005	0
A100006	0

总数据大小:

训练数据:106291例(4910670条记录)

评估数据:35781例(1651497条记录)

评价:提供标准的AUC,随机样本测试队列。我们将测试:

情况和控制部分来自同一病人:长期(> 4小时在脓毒症发病之前)和分割接近脓毒症发病(= 4小时)
情况和控制段不同患者脓毒症发病在接下来的4个小时,以及那些没有脓毒症

任务2:30天死亡率风险预测与脓毒症患者2

目标:预测患者是否会死在医院里,30天内使用在脓毒症发病之前48小时的数据。

我们提供T之间的临床事件和实验室测试结果_发病- 48和T_发病2 - 4为每个脓毒症患者,在矩阵的格式。时间是抵消T_发病。

adm_id	event_time	A / G比值	ALT /血糖	AST /血清	白蛋白定量	白蛋白、血清	碱性磷酸盐、血清	血清淀粉酶、	阴离子间隙	…
A1000019	-47.5	南	南	南	南	南	南	南	南	…
A1000019	-46.5	南	南	南	南	南	南	南	南	…
A1000019	-45.5	南	南	南	南	南	南	南	南	…
A1000019	-45.0	南	南	南	南	南	南	南	南	…
A1000019	-44.5	南	南	南	南	南	南	南	南	…

每个专利贴上他们的死亡状态,T之间的时间_发病和T_放电。

adm_id	时间	死亡率
A100079	200.5	0
A100244	78.5	0
A100328	78.5	0
A100388	55.5	0
A100398	117.0	0

总数据大小:

训练数据:31614例(940567条记录)

评估数据:10643例(313991条记录)

评价:

累积情况/动态控制民国;法官表现在多个时间戳,看看,多早(相对于死亡率/放电)模型_我可以获得一个好的预测从t_{0 nset}

使用R包timeROC评估和比较
https://cran.r-project.org/web/packages/timeROC/index.html

灵敏度^C(c t) = P (M_我> c | T_我< t)
特异性^D(c t) = P (M_我< c | T_我> t)

使用不同的时间被切断t计算AUC(传统方法)允许一个访问模型的性能预测短期、中期和长期死亡率在脓毒症发病风险。

任务3:创新可解释性

虽然许多机器学习模型可以进行分类和回归的任务,并不是所有人实现有效的解释,可能使应用程序的结果更好的通知在临床决策支持。

没有提供可解释性的方法(例如,自动决定阈值,发现模式相结合,设计新颖的可视化,等等),没有从人类专家评估。我们已经组建了一批机器学习和临床专家判断的挑战创新,将专注于可解释性。

提交你的入口

预测结果必须通过SECURESTOR提交提交目录(一个被指定为每个团队)。

任务1,请提交2病人会有脓毒症发病的概率在接下来的4个小时
Task 2,请提交的概率在30天内患者的死亡率

提交必须在CSV(逗号分隔)格式,列标题。下面是示例布局为任务1和2。

adm_id	概率
0.98330
A100093	0.34455
A100044	0.12333
A100046	0.23322

规则

规则:

参与者不能下载数据集
参与者负责任何额外的访问/登录他们的服务器上创建和保持他们的密码的秘密
解决方案必须由指定的期限提交所需的格式