@对GWAS人类复杂性状和疾病的摘要统计信息面板:申请者,等,和UKBB面板。

  • 多性状收集(MTC)特征以前报告的工作刘et al ., 2019。我们下载每个GWAS汇总统计后的数据集GitHub的资源。~ 700数据集被成功收集,覆盖~ 200复杂特征和疾病。这些数据集也与GWAS目录的引用。两两相关的使用能够假定值是确定复制或高度相关的数据集进行的。我们也排除那些非欧洲血统或trans-ethnic荟萃分析的数据集。结果,435年GWAS数据集在TSEA-DB成功地分析了帕斯卡和沉积。

  • 面板手动策划我们的实验室,即扩展特征集合(等)面板,包括161 GWAS汇总统计数据集(如6/20/2019)。相同的原始出版物,我们收集了25特征来演示方法。之后,我们继续人工管理,但排除那些已经包含在矿渣MTC面板。我们同样做了一个两两相关分析的特征从矿渣MTC面板和特征等面板移除重复的数据集。总共有161 GWAS数据集在这个面板。

  • 英国生物库(UKBB)特征最初处理尼尔实验室。具体来说,在TSEA-DB 1.0版(2019年8月6日),我们使用UKBB结果称为“GWAS第二轮在8月1日发布2018”。我们只使用两性下载数据集进行分析,达到4525数据集。质量检查和过滤后,存入TSEA-DB 4423数据集。值得注意的是,633年的一个子集的特征在UKBB相应的icd - 10编码。我们进一步联系这些代码越高类别的诊断结果。这个子集可以浏览UKBB-ICD10面板。

  • 下载原始数据集后,我们能够计算假定值使用帕斯卡。为此,我们把工作分割成5 ~ 100个线程和分布式服务器(我们非常感谢我们的合作者提供宝贵的计算资源我们!)。

@质量控制标准和处理:

  • 删除数据集与trans-ethnic设计

  • 删除数据集和非欧洲的人口

  • 删除失败的数据集帕斯卡计算(例如,失踪的染色体位置或SNP rs-IDs)

  • 删除与目标基因分型研究或# snp < 50 k,但保持外显子组芯片的研究

@GTEx面板

GTEx释放v7包含53个组织。我们选择了47个组织了30或更多的样品来构建我们的面板。对于每个组织,我们适应一个普通最小二乘法(OLS)回归和每个基因的t指数用来评估基因的组织特异性。年龄和性别作为协变量的模型拟合。的GTEx RNA-seq数据包含了14725个蛋白编码,non-housekeeping基因在47个组织。精细包中可用的t指数矩阵。

@编码面板

RNA-seq的组织样本中数据编码是相对较小。我们选择那些至少有2个样品。我们使用z分数来衡量组织特异性,子= (ei-mean (E) / sd (E)基因。

  • 对于每一个特征,我们定义5 trait-associated基因(标签)集使用不同的阈值基于基因的假定值的帕斯卡:p < 0.05, p < 0.01, p < 0.001, p < 0.0001, p < 0.00001。其中,如果一个标记集有1000多个基因或少于20基因,分析的设置将不会相同。合格的标签集的数量显示在搜索结果页面(参见下面的第4部分)。

  • 我们最初的实现chi-squred测试进行TSEA精细包。在TSEA-DB,我们进一步应用Kolmogorov-Smirnov测试来验证前三为每个特征最重要的是丰富了组织。

  • 标签在页面的特征中,我们假定值的浓缩为组织假定值< 0.2,我们使用gradiant颜色显示组织名义上大大丰富的标记集。注意所有依据假定值显示在这个网站在多个测试之前原始的假定值修正。如果用户想使用我们TSEA发表结果,用户可以对自己的数据进行修正。(我们也会欣赏我们资源的引用)。

专门为结果的解释,当冲突的结果报告,一般我们建议以下指南:

  1. 更重要的假定值通常更可靠。

  2. 结果基于GTEx通常比编码由于大样本大小的组织。

  3. 建议应用多个测试校正的信心。

  4. 用专业知识来更好的解释结果。

我们为用户提供多个搜索功能来识别特征或组织的利益。主页的搜索功能允许搜索的特征或组织。的搜索功能搜索定制的页面允许更复杂的搜索参数。

  • 用户输入查询字符串来搜索一个特征,我们将搜索这两个特征的短名称和完整的名称。

  • 在结果页面清单特点中,我们提供了一个功能,允许用户比较多个特征。这是特别重要的比较与多个GWAS特征数据集。

  • 用户输入查询字符串来搜索一个组织,GTEx面板和编码小组将搜索。


值得注意的是,对于安全问题,我们不允许搜索使用特殊字符。如果你不确定特征的名称,请使用特征的名称。为特征的引用他们的名字,如(克罗恩氏病),请使用关键字搜索简单(克罗恩病)。特征具有特殊字母的名称列表如下:

  • 阿尔茨海默病

  • 孤独症、阿斯伯格综合症或是自闭症谱系障碍

  • 贝尔氏麻痹症

  • 克罗恩氏病

  • 父亲的死亡年龄

  • 母亲的死亡年龄

  • 何杰金氏病或非霍奇金病

  • 帕金森病

  • 克罗恩氏病

在这个页面中,我们提供了五个部分。

  • 特征信息:全基因组关联数据集的细节

  • 曼哈顿的snp GWAS的阴谋

  • 曼哈顿的基因GWAS的阴谋

  • 使用GTEx面板相同功能富集分析。左侧面板是检波器的输出R包。右边的面板显示了验证的三大最重要的是丰富了组织使用Kolmogorov-Smirnov测试。

  • 使用编码面板相同功能富集分析。类似GTEx面板。

基因与p值< 0.05可供下载。

下载的文件,用户可以使用下面的代码复制相同的结果。

# # #安装精细包install.packages(“引爆器”)# # #包含包和数据图书馆(检波器)数据(GWAS_gene_multiple)数据(GTEx_t_score)数据(ENCODE_z_score) # # #阅读下载文件包括trait-associated基因dat < - read.delim(“/道路/ / B1_0.05.txt”,人群收税= T,头= F)头(dat) # # #侦破一个标记集基于基因的假定值< 0.01标记< - dat (dat [2] < 0.01, 1] # # # GTEx面板前5%高表达的基因;tsea_GTEx = tsea。分析(标签、GTEx_t_score比率= 0.05,p.adjust。方法=“没有”)负责人(tsea_GTEx) tsea.plot (tsea_GTEx) # # #发现交叉基因从GTEx组织和标记列表Tissue_idx < - 1 intersected_gene_GTEx <——相交(dat_input, rownames (GTEx_t_score[秩序(GTEx_t_score [, Tissue_idx],减少= T),])[1:圆形(0.05 * nrow (GTEx_t_score)))) # # #编码板前5%高表达的基因;tsea_ENCODE = tsea。分析(dat_input、ENCODE_z_score比率= 0.05,p.adjust。方法=“没有”)负责人(tsea_ENCODE) tsea.plot (tsea_ENCODE) # # #发现交叉基因编码组织和标记列表Tissue_idx < - 2 intersected_gene_ENCODE < -相交(dat_input, rownames (ENCODE_z_score[秩序(ENCODE_z_score [, Tissue_idx],减少= T),])[1:圆形(0.05 * nrow (ENCODE_z_score))))