跳过导航,转到内容

机器学习DATATHON COVID-19徽标

COVID-19 Houston Datathon

Registration Deadline: August 25, 2020


共同组织者:
小江1(Uthealth),Genevera Allen2(莱斯大学),德维卡·苏巴拉曼(Devika Subramanian)(莱斯大学),
Assaf Gottlieb(Uthealth),Ioannis Kakadiaris(休斯顿大学),Yejin Kim(Uthealth)

赞助:
1安全人工智能中心(安全)
UTHealth生物医学信息学
And
2将数据转换为知识的中心(D2K实验室),莱斯大学
And
墨西哥湾海岸财团(GCC)和医疗保健中AI的GCC群集

专案经理:
大麻detranaltes(Uthealth)

Steering Committee:
Shayan Shams(Uthealth),Ananth诉Annapragada(德克萨斯儿童医院),Kai Zhang(Uthealth)


建筑支持:Robert III Jolly,David HA,Luyao Chen,Marcos Hernandez
逻辑支持:夏布利斯皇后,安吉拉·威尔克斯,小野
Student Volunteers:汤顿黄,杨



这项比赛的Kaggle链接,请参阅下面的信息

https://www.kaggle.com/c/covid19houstondatathon/overview

  1. 个人参与者应在“团队”下签名,请注意,这里的“团队”意味着个人参与者。我们的Datathon不打算用于小组参与目的
  2. download data from “Data”, and notice that there are 7 datasets in total
  3. 请问讨论的任何问题
  4. 通过“笔记本”和“提交预测”提交笔记本和预测


关于Datathon


Covid-19休斯顿Datathon是一个在线挑战,要预测德克萨斯州休斯敦的Covid-19区域住院和死亡模式。该数据已由Uthealth Biomedical Informatics的安全人工智能中心共同组织和赞助,并由赖斯大学的知识实验室数据提供数据。强烈鼓励来自墨西哥湾沿岸财团(包括Uthealth,MDACC,UH,Rice,Tamu,UTMB,IBT和Baylor)的学院的本科生,硕士和博士生以及TMC附近的学院申请。事件将有高达1500美元的奖励winners. This is an individual-based event (no team participation).


主题


Objective

The goal is to develop a prediction model using local county-level data to estimate the changes in hospitalization and mortality rates in the greater Houston area encompassing 8 counties (Harris, Fort Bend, Montgomery, Brazoria, Galveston, Liberty, Chambers, and Austin) in the state of Texas, USA.

问题

Accurate and timely prediction of local trends for pandemics will have profound implications to medical resource preparation and policy adjustment evaluation. In this Datathon, we will focus on predicting每日住院病例(COVID-19普通床 + ICU床)and累积死亡率案件based on previous observations. We will provide daily hospitalization and mortality statistics (together with infection cases, recovery cases, active cases, test cases) for nine counties in Texas. In addition, we will provide data related to population mobility, demographics, mask usage, which might contain features related to behavioral patterns affecting the transmission.

TMC每日新闻相关图的照片


数据源


  • 县级死亡率,感染,恢复,活跃病例,测试计数,住院:约翰·霍普金斯·库维德(John Hopkins covid)19跟踪数据[link这是给予的
  • 县级面具的用法:纽约时间[link这是给予的
  • 县级人口流动性:Google流动性报告[link这是给予的
  • County-level data dashboard: School of Public Health, UTHealth [link这是给予的
  • (可选)COVID-19控制策略KFF [link这是给予的
  • (optional) Demonstration and protest [link这是给予的
  • (可选)天气[link这是给予的


数据说明


COVID-19确认的案例数据

./data/time_series_covid19_confirmed_hou.csv

确认的案件数据包括在04/01/2020和09/06/2020之间在大休斯敦的8个县的确认案件组成。此外,还提供了经度,纬度和FIP,可以用作外国查询掩盖调查数据的钥匙。

已确认的情况数据在单个.csv文件中(time_series_covid19_confirmed_hou.csv),其中包括以下格式:

数据描述表的照片表

COVID-19 deceased cases data

./data/time_series_covid19_deaths_hou.csv

已故的数据包括在04/01/2020和09/06/2020之间在大休斯敦的8个县的累积案件组成。此外,还提供了经度,纬度和FIP,可以用作外国查询掩盖调查数据的钥匙。

已故案例数据在单个CSV文件中(time_series_covid19_death_hou.csv),其格式以下格式:

案例表减少的照片

COVID-19-19

./data/mask-use-hou.csv

《纽约时报》进行的COVID-19-19蒙版用法调查估计了美国县的面具使用情况。数据来自2020/02/2020和07/14/2020之间的250,000多个在线访谈。具体来说,每次访谈都涉及参与者期望在另一个人六英尺范围内公开戴口罩的频率。

The data includes the following definition:

CountyFP:县FIPS代码。

NEVER: The estimated share of people in this county who would say never responding to the question “How often do you wear a mask in public when you expect to be within six feet of another person?”

很少:估计该县的人数很少

有时:该县的估计人数有时会说

经常:这个县的估计人数经常说

ALWAYS: The estimated share of people in this county who would say always


蒙版用法调查数据位于单个CSV文件(Mask_use_hou.csv)中,其格式以下格式:

Photo of Mask Usage Survey Table

COVID-19医院数据

./data/ {county_name} _hosp_ {end_date} .xlsx

大休斯顿8个县的县级住院包括199例普通床的患者,ICU中的COVID-19患者(无通用床的相交),总的一般床和总住院患者人口普查。该数据集可从SETRAC获得。

每个县的住院数据存储为单独的XLSX文件({county_name} _hosp_ {end_date} .xlsx),并使用以下格式:

Photo of ExampleHospitalization data in each county

县FIP和人口数据

./data/uid_iso_fips_lookup_table.csv

FIPS data is used to check county code and population. It’s in a single csv file with the following format:

Photo of County FIPS Table


评估


评估图的照片

排行榜

大数据将涉及两轮比赛;每周09/07/2020之后。参与者将有2周的时间准备和调整自己的模型。

在第一轮中,评估将使用09/07/2020(比赛开始)和09/13/2020(开始后2周)之间的数据,顶级候选人的表现将在仪表板上发布。参与者应仅在09/06/2020或之前使用数据来预测进入周。

在第二轮中,参与者可以更新其模型并合并第一阶段的数据,以对下周进行预测(09/14/2020-09/20/2020)。同样,参与者应仅在09/14/2020或之前使用数据。提交的解决方案将根据排名评分进行评估(下一节详细说明)。

模型准备 08/26/2020-09/06/2020
Round 1 evaluation 09/07/2020-09/13/2020
第2轮评估 09/14/2020-09/20/2020

第1轮排名(09/07/2020 - 09/13/2020)

ID 分数
1 0003 16
2 0009 20
3 0008 24
4 0006 28
5 0005 32
6 0010 55
7 0007 64
8 0012 71
9 0011 68
10 0013 72
11 0004 78
12 0002 99
13 0001 101

第2轮排名(09/14/2020 - 09/21/2020)

ID 分数
1 0008 24
2 0006 28
3 0010 28
4 0009 29
5 0005 31
6 0003 33
7 0001 51
8 0007 76
9 0004 79
10 0014 79
11 0011 81
12 0012 85

联合排名(09/07/2020 - 09/21/2020)

ID 分数
1 0003 16.5
2 0008 20.5
3 0009 24
4 0006 27
5 0005 32
6 0010 52
7 0007 60
8 0011 64
9 0012 71
10 0004 73
11 0001 88

排名得分计算

We will use mean squared logarithmic error (MSLE) of hospitalization and deceased case prediction to evaluate the performance of submitted models on each county. Final scores will be evaluated based on the sum of ranking in each county. We will provide evaluation codes.

MSLE代表平均值,超过观察到的数据,即对数转换的真实和预测值之间的平方差异,或作为公式写入:

排名评分的照片1

在哪里:

N is the total number of observations

H一世是时间的实际住院价值

H一世您的住院预测是我的时间

d一世时间是我的实际死亡率价值

时间我的死亡率预测一世是您时间的死亡率预测



如果MSLE相等的评分,我们将应用二级评估度量标准 - 住院和已故病例预测的平均平方错误(MSE)。

MSE stands for the mean over the observed data of the squared differences between the targets and predicted values, or writing as a formula:

排名得分2的照片2

where the meaning of all parameters are the same as above.



提交

在每场比赛中,要求参与者为下一个提供预测性住院和死亡率案例7天。在两轮比赛中,测试/提交文件格式都是相同的。请注意,我们的评估指标独立于Kaggle的默认排行榜排名设置,因此请等待我们的最终公告以获取正确的排名分数。

参与者可以通过任何计算方法做出预测。测试数据包含带有格式(County_name+Date)的IDCOLUMN,一个住院栏,我们想计算错误的死亡列。请注意,日期列和县级是必要的,因为它们决定如何匹配提交结果和实际数据。文件中的默认住院和死亡率均设置为0。它是一个.csv文件(test.csv),其格式以下格式:

示例测试文件的照片

涉及到德克萨斯州的8个县(即哈里斯,福特堡,蒙哥马利,蒙哥马利,蒙哥马利,加尔维斯顿,自由,钱伯斯和奥斯汀),提交文件应保存为一个CSV文件(combissions.csv),其格式下文:

提交的示例测试文件的照片


规则


  • 要求参与者以独立的方式提交源代码(例如,jupyter笔记本作为内核)。
  • 鼓励使用外部数据,目标是预测未来的趋势。
  • 要求顶级参赛者准备摘要幻灯片,以在Datathon的末尾描述他们的模型,并在虚拟会话中向其他参赛者进行演示。


奖品


A total of $1,500

  • First place: $500 (GCC sponsored)
  • 第二名:$ 300(Uthealth赞助)
  • 第三名:$ 200(稻米赞助)

机构特定奖品:

  • Top Rice Student: $250
  • 顶级Uthealth学生:250美元

In addition, participating students will receive suvanariors sponsored by the GCC and the GCC cluster of AI in Healthcare


常见问题解答


FREQUENTLY ASKED QUESTIONS

强烈鼓励来自墨西哥湾沿岸财团(包括Uthealth,MDACC,UH,Rice,Tamu,UTMB,IBT和Baylor)的学院的本科生,硕士和博士生以及TMC附近的学院申请。那些隶属于安全医疗机器学习中心的人没有资格参加。
不,这个大数据完全免费!
这是一个编码Datathon。期望您掌握基本的编程技能和机器学习知识。
是的!我们为获奖者提供现金奖。
评估将在未来的观察数据上以预定的排名得分进行公平进行。
如果您有此处未列出的问题,请联系Dr.Xiaohong Bi

在此处查找其他常见问题(常见问题解答)并答案:
https://docs.google.com/document/d/1k1yJu7igk2uwUWde4FmKwN1dN-vrqGglBHzAgWIEWUo



Baidu