Registration Deadline: August 25, 2020
共同组织者:
小江1(Uthealth),Genevera Allen2(莱斯大学),德维卡·苏巴拉曼(Devika Subramanian)(莱斯大学),
Assaf Gottlieb(Uthealth),Ioannis Kakadiaris(休斯顿大学),Yejin Kim(Uthealth)
赞助:
1安全人工智能中心(安全)
UTHealth生物医学信息学
And
2将数据转换为知识的中心(D2K实验室),莱斯大学
And
墨西哥湾海岸财团(GCC)和医疗保健中AI的GCC群集
专案经理:
大麻detranaltes(Uthealth)
Steering Committee:
Shayan Shams(Uthealth),Ananth诉Annapragada(德克萨斯儿童医院),Kai Zhang(Uthealth)
建筑支持:Robert III Jolly,David HA,Luyao Chen,Marcos Hernandez
逻辑支持:夏布利斯皇后,安吉拉·威尔克斯,小野
Student Volunteers:汤顿黄,杨
这项比赛的Kaggle链接,请参阅下面的信息
https://www.kaggle.com/c/covid19houstondatathon/overview
Covid-19休斯顿Datathon是一个在线挑战,要预测德克萨斯州休斯敦的Covid-19区域住院和死亡模式。该数据已由Uthealth Biomedical Informatics的安全人工智能中心共同组织和赞助,并由赖斯大学的知识实验室数据提供数据。强烈鼓励来自墨西哥湾沿岸财团(包括Uthealth,MDACC,UH,Rice,Tamu,UTMB,IBT和Baylor)的学院的本科生,硕士和博士生以及TMC附近的学院申请。事件将有高达1500美元的奖励winners. This is an individual-based event (no team participation).
Objective
The goal is to develop a prediction model using local county-level data to estimate the changes in hospitalization and mortality rates in the greater Houston area encompassing 8 counties (Harris, Fort Bend, Montgomery, Brazoria, Galveston, Liberty, Chambers, and Austin) in the state of Texas, USA.
问题
Accurate and timely prediction of local trends for pandemics will have profound implications to medical resource preparation and policy adjustment evaluation. In this Datathon, we will focus on predicting每日住院病例(COVID-19普通床 + ICU床)and累积死亡率案件based on previous observations. We will provide daily hospitalization and mortality statistics (together with infection cases, recovery cases, active cases, test cases) for nine counties in Texas. In addition, we will provide data related to population mobility, demographics, mask usage, which might contain features related to behavioral patterns affecting the transmission.
./data/time_series_covid19_confirmed_hou.csv
确认的案件数据包括在04/01/2020和09/06/2020之间在大休斯敦的8个县的确认案件组成。此外,还提供了经度,纬度和FIP,可以用作外国查询掩盖调查数据的钥匙。
已确认的情况数据在单个.csv文件中(time_series_covid19_confirmed_hou.csv),其中包括以下格式:
COVID-19 deceased cases data
./data/time_series_covid19_deaths_hou.csv
已故的数据包括在04/01/2020和09/06/2020之间在大休斯敦的8个县的累积案件组成。此外,还提供了经度,纬度和FIP,可以用作外国查询掩盖调查数据的钥匙。
已故案例数据在单个CSV文件中(time_series_covid19_death_hou.csv),其格式以下格式:
COVID-19-19
./data/mask-use-hou.csv
《纽约时报》进行的COVID-19-19蒙版用法调查估计了美国县的面具使用情况。数据来自2020/02/2020和07/14/2020之间的250,000多个在线访谈。具体来说,每次访谈都涉及参与者期望在另一个人六英尺范围内公开戴口罩的频率。
The data includes the following definition:
CountyFP:县FIPS代码。
NEVER: The estimated share of people in this county who would say never responding to the question “How often do you wear a mask in public when you expect to be within six feet of another person?”
很少:估计该县的人数很少
有时:该县的估计人数有时会说
经常:这个县的估计人数经常说
ALWAYS: The estimated share of people in this county who would say always
蒙版用法调查数据位于单个CSV文件(Mask_use_hou.csv)中,其格式以下格式:
COVID-19医院数据
./data/ {county_name} _hosp_ {end_date} .xlsx
大休斯顿8个县的县级住院包括199例普通床的患者,ICU中的COVID-19患者(无通用床的相交),总的一般床和总住院患者人口普查。该数据集可从SETRAC获得。
每个县的住院数据存储为单独的XLSX文件({county_name} _hosp_ {end_date} .xlsx),并使用以下格式:
县FIP和人口数据
./data/uid_iso_fips_lookup_table.csv
FIPS data is used to check county code and population. It’s in a single csv file with the following format:
排行榜
大数据将涉及两轮比赛;每周09/07/2020之后。参与者将有2周的时间准备和调整自己的模型。
在第一轮中,评估将使用09/07/2020(比赛开始)和09/13/2020(开始后2周)之间的数据,顶级候选人的表现将在仪表板上发布。参与者应仅在09/06/2020或之前使用数据来预测进入周。
在第二轮中,参与者可以更新其模型并合并第一阶段的数据,以对下周进行预测(09/14/2020-09/20/2020)。同样,参与者应仅在09/14/2020或之前使用数据。提交的解决方案将根据排名评分进行评估(下一节详细说明)。
模型准备 | 08/26/2020-09/06/2020 |
Round 1 evaluation | 09/07/2020-09/13/2020 |
第2轮评估 | 09/14/2020-09/20/2020 |
第1轮排名(09/07/2020 - 09/13/2020)
秩 | ID | 分数 |
---|---|---|
1 | 0003 | 16 |
2 | 0009 | 20 |
3 | 0008 | 24 |
4 | 0006 | 28 |
5 | 0005 | 32 |
6 | 0010 | 55 |
7 | 0007 | 64 |
8 | 0012 | 71 |
9 | 0011 | 68 |
10 | 0013 | 72 |
11 | 0004 | 78 |
12 | 0002 | 99 |
13 | 0001 | 101 |
第2轮排名(09/14/2020 - 09/21/2020)
秩 | ID | 分数 |
---|---|---|
1 | 0008 | 24 |
2 | 0006 | 28 |
3 | 0010 | 28 |
4 | 0009 | 29 |
5 | 0005 | 31 |
6 | 0003 | 33 |
7 | 0001 | 51 |
8 | 0007 | 76 |
9 | 0004 | 79 |
10 | 0014 | 79 |
11 | 0011 | 81 |
12 | 0012 | 85 |
联合排名(09/07/2020 - 09/21/2020)
秩 | ID | 分数 |
---|---|---|
1 | 0003 | 16.5 |
2 | 0008 | 20.5 |
3 | 0009 | 24 |
4 | 0006 | 27 |
5 | 0005 | 32 |
6 | 0010 | 52 |
7 | 0007 | 60 |
8 | 0011 | 64 |
9 | 0012 | 71 |
10 | 0004 | 73 |
11 | 0001 | 88 |
排名得分计算
We will use mean squared logarithmic error (MSLE) of hospitalization and deceased case prediction to evaluate the performance of submitted models on each county. Final scores will be evaluated based on the sum of ranking in each county. We will provide evaluation codes.
MSLE代表平均值,超过观察到的数据,即对数转换的真实和预测值之间的平方差异,或作为公式写入:
在哪里:
N is the total number of observations
H一世是时间的实际住院价值
H一世您的住院预测是我的时间
d一世时间是我的实际死亡率价值
一世是您时间的死亡率预测
如果MSLE相等的评分,我们将应用二级评估度量标准 - 住院和已故病例预测的平均平方错误(MSE)。
MSE stands for the mean over the observed data of the squared differences between the targets and predicted values, or writing as a formula:
where the meaning of all parameters are the same as above.
提交
在每场比赛中,要求参与者为下一个提供预测性住院和死亡率案例7天。在两轮比赛中,测试/提交文件格式都是相同的。请注意,我们的评估指标独立于Kaggle的默认排行榜排名设置,因此请等待我们的最终公告以获取正确的排名分数。
参与者可以通过任何计算方法做出预测。测试数据包含带有格式(County_name+Date)的IDCOLUMN,一个住院栏,我们想计算错误的死亡列。请注意,日期列和县级是必要的,因为它们决定如何匹配提交结果和实际数据。文件中的默认住院和死亡率均设置为0。它是一个.csv文件(test.csv),其格式以下格式:
涉及到德克萨斯州的8个县(即哈里斯,福特堡,蒙哥马利,蒙哥马利,蒙哥马利,加尔维斯顿,自由,钱伯斯和奥斯汀),提交文件应保存为一个CSV文件(combissions.csv),其格式下文:
A total of $1,500
机构特定奖品:
In addition, participating students will receive suvanariors sponsored by the GCC and the GCC cluster of AI in Healthcare
在此处查找其他常见问题(常见问题解答)并答案:
https://docs.google.com/document/d/1k1yJu7igk2uwUWde4FmKwN1dN-vrqGglBHzAgWIEWUo