1.创建以大数据因果推断为核心的健康大数据生态系统工程:
(1) 针对“实验性研究VS.观察性研究”、“因果推断的概率图模型”、“观察性研究中的偏倚及控制策略”、“匹配策略VS混杂控制”、“等值混杂VS回归调整变量集选择”、“回归调整混杂策略VS变量角色(混杂、中介节点、碰撞节点、工具变量)重要性”等问题,进行了系统的理论推导和统计模拟,形成一套使用回归方法控制混杂偏倚的策略和方法。
(2) 跨组学生物调控网络学习算法研究,目前已经创建了基于生物组学大数据的系统流行病学分析方法体系及10余种基因关联效应统计推断方法(CCU、KCCU、PCA-BCIT、KPCA-LRT、PLSPM-based statistic、mPLSPM statistic、iBVS、PEM等);此外,还创建了一系列网络/通路比较的统计检验方法[PEM、NetDifM、WNES等]。
2.健康医疗大数据队列建设研究,自2007 年以来,按照大数据队列建设模式,已陆续建立了15个健康大数据平台。[例如,山东多中心90 个专病真实临床世界大数据队列、山东多中心健康医疗大数据队列(融合500万人136个数据库随访7年以上)、全球泛癌跨组学数据库(整合TCGA、GTEx、GEO)等]。
3.大数据驱动的健康管理,整合健康保险&健康维护理论方法体系研究,目前已研发了全程式健康管理智能系统和“山大·华链健康大数据全栈式工程智能系统V1.0”,在山东、北京、新疆等地示范应用。
4.大数据技术支撑平台建设研究,通过与北方中心合作,建立“一湖三台“大数据技术支撑平台。通过数据湖满足未来超大规模医疗数据的存储和管理需要;通过技术中台和数据中台具备不断深挖健康医疗数据潜在价值;通过开放应用平台,为上层各类健康医疗应用提供全方位数据服务的能力;最终“一湖三台”形成有机的逻辑体系。
5.创建医学数学学科体系,在该体系中,将“大数据(big data)”转化为“精准证据(precision evidence)”是其核心任务,并据此制定了从“小数据(Small data)→大数据(Big data)→智慧数据(Smart data) →精准证据(Precision Evidence)”的工作路径,创立了“数据驱动研究创新,需求引导学科融合”学科范式,发展了“数据驱动假设的医学研究新模式”,提出了“健康大数据生态系统”,推动了将大数据转化为精准证据的进程。