随着“复杂网络”的提出,以及近几年数据科学的快速兴起,图理论在数学建模、网络分析、模 拟以及高性能算法设计中发挥着日益重要的作用。复杂网络,等同于数学学科中的图,是离散数学 的重要工具,其在数据科学研究中的作用主要体现在以下几个方面:
图本身的拓扑性质可以重现大数据的内部结构。作为离散数学的一个分支,图论的优势之一就是 直观,这恰好为大数据的重建和可视化提供了理论支持。无论是日常生活,还是科学研究,大量 事物都可以用图的形式加以展示,以节点表示数据点,连边表示相互间的依赖关系,这种关系可以是有向的,也可以是无向的,可以是加权的,也可以是无权的,还可以是带有其他属性的。例 如,社交网站 Facebook 、 人人网和微信就是无向图;而 Twitter 、 新浪微博以及 Instagram 就是 有向图。此外,网页链接关系、蛋白质相互作用网络(PPI)和基因调控网络均可通过图来简化并 重现其结构和性质。
时序网络模拟数据的演化过程。大数据是不断涌现,持续变化的,具体到网络上,这对应于网络 连边和节点的变动。图的边就是节点的二元组,如果我们把所有图看作完全图,就可以通过改变 边上的权重来描述网络拓扑结构不同类型的演变。研究发现,网络的拓扑结构会影响网络的演变 方向。网络演变模型也曾经用于社会学领域的预测问题,例如预测人口出生率和死亡率。
图理论与方程理论相结合来模拟网络的动力学过程。某些社会系统(例如交通网络、设备网络) 中,节点具有各自的“状态”,并且随着时间而变化。大多数节点的状态变化趋势,是直接或间接 地受到少数“驱动节点”的控制,准确识别出网络中的控制节点是网络动力学的核心问题。通过对 图节点加权,并结合微分方程来模拟系统的动力学性质已经是该领域比较主流的研究方法。另 外,图与网络中的动力学过程在很多场景中应用广泛,例如随机游走在互联网连接分析和金融股 票市场中的应用等。
图嵌入是一种重要的数据表示方法,出现在各种各样的现实场景中。有效的图分析为用户提供了 对数据背后知识更深入的了解,从而可以使许多有价值的应用程序受益,如节点分类,节点推 荐,链接预测等。然而,大多数图分析方法仍遭受高计算和空间成本的限制。图嵌入是解决图分 析问题的有效且高效的方法,它将图形数据转换为低维空间,其中图形结构信息和图形属性得到 最大限度地保留。网络表示学习作为一种新的图嵌入范式,通过保留网络拓扑结构、顶点和其他 边信息将网络嵌入到低维向量空间,这有助于对处理原始网络进一步分析。
图神经网络是将图结构考虑到深度神经网络中,其研究目前处于比较火热的阶段,例如图卷积神 经网络克服了在图结构数据上使用深度学习的限制,包括图的不规则性、可扩展性、并行性等。 利用图神经网络可以进行节点分类、链路预测、节点预测等对于节点的任务,也可以图分类、图 属性预测、生成图等。图神经网络的研究作为 AI 可能的下一个节点,将事物内部、事物之间的拓 扑结构加以考虑,可能是 AI 实现智能的第一步。
目前的研究问题主要包括以下两个方面:
复杂网络: 复杂网络是目前研究的主要方向,涉及符号网络和时序网络的结构及动力学研究,目 前正在进行的项目包括里奇曲率在复杂网络中的应用、符号网络中的负关系推断等。
神经网络: 主要研究图神经网络的理论及其应用,目前正在进行的项目包括基于网络表示学习的 双聚类算法、跨平台竞争环境下的推荐系统、基于超图的生成对抗网络研究等。
山东大学数据科学研究院副研究员,硕士生导师。于2019年在山东大学数学学院获得博士学位,2016年至2018年于荷兰代尔夫特理工大学联合培养两年。主要研究方向为网络数据科学、复杂网络理论及其应用等。以第一或通讯作者身份在IEEE TNSE、IEEE TCSS、Information Sciences、New Journal of Physics、Chaos、Chaos Solitons & Fractals等期刊发表论文10余篇。主持国家自然科学基金青年基金项目1项、中国博士后基金特别资助项目1项、面上资助项目1项。参与国家自然科学基金重点项目2项,主要负责生物信息、医学等领域的图模型和算法研究。