基于图深度学习的开源工具包CogDL
一个核心问题:一行代码究竟能实现什么? "一行命令就能完成‘一条龙’实验运行。 " 这正是 CogDL 的承诺,也是它被创建的核心意义。 近年来,结构化数据的表示学习已成为业界与学术界高度关注的方向,图神经网络(GNN)也因此成为处理这类任务的主流工具。基于随机游走、矩阵分解等方法,在搜索推荐、分子与
一个核心问题:一行代码究竟能实现什么?
"一行命令就能完成‘一条龙’实验运行。"
这正是 CogDL 的承诺,也是它被创建的核心意义。
近年来,结构化数据的表示学习已成为业界与学术界高度关注的方向,图神经网络(GNN)也因此成为处理这类任务的主流工具。基于随机游走、矩阵分解等方法,在搜索推荐、分子与药物生成等领域的实用价值早已得到广泛验证。
然而,问题也随之而来。许多项目的代码并未开源,即便开源,风格也千差万别。对于真正希望推进工作的研究人员和开发者而言,实验复现成为实际痛点。在自己的数据集上运行模型、调整参数,所耗费的时间有时甚至超过研发新模型本身。
具体而言,在学术研究中,通常需要将自己的模型与现有模型进行对比。这就需要选定若干下游任务,并在每个任务上采用公平的评估方式,比较不同模型的效果。问题在于,不同的模型在提出时往往使用了不同的任务和评估指标。仅是将那些基线模型(baseline)的代码适配到可运行状态,就已经需要耗费大量精力。
那么,如何快速且便捷地复现基线模型的结果,并将其应用到自定义数据集上呢?
为应对这一实际需求,清华大学知识工程实验室(KEG)与北京智源人工智能研究院(BAAI)联合推出了 CogDL——一个基于 PyTorch 的图深度学习开源工具包。
据开发者介绍,该工具包的核心思路是将多种不同的下游任务集成在一起,并配以合适的评估方式。这样,研究人员和用户就能方便、快速地获取各类基线模型的结果,从而将更多精力投入到真正有价值的工作——研发新模型上。
"对于图领域的每一种任务,我们都提供了一套完整的‘数据处理—模型搭建—模型训练—模型评估’方案。以图半监督节点分类为例,我们整合了 Cora、Citeseer、Pubmed 等常用数据集,提供了 GCN、GAT、GCNII 等经典与前沿模型,并附带相应的训练脚本以及一个排行榜供参考。"开发者解释道。
CogDL 最为独特之处在于它以任务为导向来集成所有算法。每个算法都会被分配到至少一个任务下,形成"数据处理-模型搭建-模型训练和评估"的一体化流程。这正是其核心价值所在。

此外,CogDL 还支持研究人员和用户自定义模型与数据集,并将其嵌入到整体框架中。它包含了当前多个数据集上的 SOTA 算法实现,并且持续更新。
以任务为导向,持续扩展算法
图表示学习算法大致可分为两类:一类是基于图神经网络的,例如 GCN、GAT、GraphSAGE、DiffPool,以及针对异构图的 RGCN、GATNE 等;另一类是基于 Skip-gram 或矩阵分解的,比如 Deepwalk、Node2Vec、HOPE、NetMF,还有用于图分类的 DGK、graph2vec。

CogDL 将现有算法划分为以下 6 项任务:
有监督节点分类任务:包括 GCN、GAT、GraphSAGE、MixHop、GRAND 等;
无监督节点分类任务:包含 DGI、GraphSAGE(无监督版),以及 Deepwalk、Node2vec、ProNE 等;
有监督图分类任务:有 GIN、DiffPool、SortPool 等;
无监督图分类任务:涵盖 InfoGraph、DGK、Graph2Vec 等;
链接预测任务:涉及 RGCN、CompGCN、GATNE 等;
异构节点分类任务:包括 GTN、HAN、Metapath2vec 等。
此外,CogDL 还包含一个图上的预训练模型 GCC,它利用图的结构信息对图神经网络进行预训练,然后迁移到其他数据集上执行节点分类或图分类任务,效果表现优异。
CogDL 能做什么?
那么,使用 CogDL 究竟能实现哪些功能?核心作用包括三点:跟进 SOTA、复现实验、自定义模型与数据。
跟进 SOTA。CogDL 持续追踪最新发布的算法,涵盖了不同任务下的 SOTA 实现,并建立了各任务的排行榜,便于研究人员和开发者直接比较不同算法的性能。

复现实验。论文模型的可复现性至关重要,不言自明。CogDL 通过实现不同论文中的模型,本身也对这些模型的可复现性进行了检验。
自定义模型与数据。在 CogDL 中,"数据-模型-训练"三个部分是相互独立的。用户可以自定义其中任意一部分,其余部分可直接复用,从而显著提升开发效率。
如何使用 CogDL?
使用方式有两种:通过命令行直接运行,或者通过 API 调用。
命令行直接运行。通过命令行直接指定 task、model、dataset 以及对应的超参数,最便捷的是支持同时指定多个模型和数据集。代码示例如下:

支持自定义数据集与模型,并提供了自动调参的示例。

自 2019 年启动以来,CogDL 经历了多次密集的研发迭代,目前已整合了图领域的重要任务及其经典与前沿模型。
开发者回忆道:"起初,我们只是整合了实验室内部同学用到的相关代码,方便大家开展实验。后来决定将其开源,以惠及更多用户。"
目前,CogDL 已更新至 v0.1.1 版本。新版本新增了一些最前沿的图神经网络模型,包括图自监督模型和图预训练模型。用户可以利用预训练模型完成不同的下游任务。在下游任务方面,新增了知识图谱的链接预测任务。
具体而言,监督节点分类任务新增了 GRAND 和 DisenGCN——前者在 Cora、PubMed、Citeseer 上取得了 SOTA 或接近 SOTA 的效果;无监督节点分类任务新增了 DGI、MVGRL、GraphSAGE(无监督版);链接预测任务新增了知识图谱链接预测的 GNN 模型 RGCN 和 CompGCN;此外还新增了图上的预训练模型 GCC。
此外,CogDL 还提供了使用 Optuna 进行超参数搜索的示例,只需指定"模型、数据集、参数"即可自动完成搜索。
谈到下一步计划,研究者表示将继续补充更多图领域的下游任务,增加数据集并更新排行榜;同时增加最前沿的预训练图神经网络模型,支持用户直接使用预训练模型进行应用;还将完善教程与文档,帮助新手快速上手。
最终愿景十分明确:一方面,让从事图数据研究的用户能够借助 CogDL 便捷地开展实验;另一方面,让面向实际应用的开发者能够快速搭建下游应用。最终,打造一个完善的图领域研发生态。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:基于图深度学习的开源工具包CogDL要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点GoogleMeet是面向商业与企业的视频会议服务,支持屏幕共享、实时字幕及与GoogleWorkspace集成,适用于项目讨论、网络研讨和线上教学等多种会议场景,具备扎实的安全与隐私保护。
Lanter是Chrome扩展,利用AI将YouTube视频语音转为带时间戳的文字笔记,支持一键抓取高光、自动标点排版、书签管理、全局搜索及每日邮件汇总,方便高效回顾视频关键内容。
一款AI驱动的Chrome扩展音频笔记应用,支持录音自动转文字、标签分类与全文搜索,将语音转化为可检索的数字资产,显著提升信息定位与管理效率。
专为GoogleMeet设计的AIChrome扩展,实时转录会议内容,自动生成摘要并提取行动项与决策,无缝同步至Google文档、任务及Gmail,省去手动整理时间,显著提升协作效率。
- 日榜
- 周榜
- 月榜
热点快看
