基于基因组数据的中国人成年身高预测


1、赛题说明

 

基因与复杂性状之间的相互关系非常复杂,被学术界认为是最具挑战性的工作之一。身高作为一个典型的复杂性状,经研究发现具有0.8甚至0.9以上的遗传率但目前通过全基因组关联分析(GWAS)找到的相关位点仅能解释人群中5%左右的身高差异。如何利用统计学、机器学习及基因组学的研究方法和成果,探索基因组和成年身高之间的量化关系,不仅仅有助于我们理解身高这一性状的遗传机制,也将推动我们对其他性状和疾病的遗传机制的研究。

 

2、需要达成目标

 

选手对测试数据预测出的身高的r^2 score应该大于0.5。

 

3、赛题数据

 

训练数据:脱敏后的约500位成年中国人的身高和基因组数据;

测试数据:脱敏后的约500位成年中国人的基因组数据;

具体格式见压缩包中的说明文档。

 

4、注意事项

 

1)注意参考已经发表的关于身高的全基因组关联分析研究成果;

2)可以利用公共数据集对数据进行筛选和质控;

3)可以利用公共数据集进行imputation等分析,扩充基因组数据;

4)数据纬度较高,可以考虑使用特征抽取或者特征选择后,再构建模型。

 

 

5、提交结果

 

1、对测试集中每个个体的身高预测结果。

2、源代码。

3、技术文档。

 

6、评估指标

 

1、 方法说明(5’):考核方法的合理性、创新点等。 

2、 模型训练和预测的资源消耗(20’):考核模型在构建和应用时对计算,内存的资源消耗。

3、r2 socre(70’)。:考核模型的准确性。

4、其他(5’) 。

5、加分项,其他有助于启发研究基因和复杂性状间相关性的思想给予适当加分,加分总分不能超过10分 。