新闻中心

北京大学深圳研究生院研究员、科学智能(AI for Science,AI4S)中心主任陈语谦在Nature Communications发表了题为” Modal-nexus auto-encoder for multi-modality cellular data integration and imputation”的研究论文。异构特征空间和技术噪声阻碍了细胞数据整合和进一步分析。该论文开发了一种模态联结自编码器 (Monae),可有效整合不配对的多模态细胞数据并生成插补计数以供下游分析。

单细胞测量技术的最新进展使得研究人员能够以细胞分辨率获取多模态数据。这些数据集的快速增长需要开发用于多模态分析的深度学习方法,旨在阐明生物体的生命状态并促进药物发现等领域的应用。最近的研究已经确定了多模态单细胞数据分析的基本任务:整合和插补。整合涉及弥合模态之间的差距并在综合多模态数据图谱中识别生物簇以揭示细胞身份和功能。插补解决了由于测量约束而导致的缺失信号的扣除问题,旨在恢复生物系统的真实状态,从而将插补计数的适用性扩展到复杂的下游分析。论文提出了一个统一的框架来分别解决整合和插补中的主要挑战。


作者设计了模态联结自编码器MonaeMonae 联结模态之间的关系,并在特定模态中采用对比学习,增强联合空间中的细胞表示。Monae 的整合部分提供模态互补的细胞表示,插补部分利用细胞表示生成具有生物异质性的模态内和跨模态计数。此外,额外设计的 Monae-E是 Monae 的一种变体,支持更快收敛并提供可解释性。在各种数据集上的评估验证了 Monae 在多模态细胞数据整合和插补中的准确性。


Monae 是一个由自编码器构建多模态单细胞数据学习框架,如图1所示。Monae 基于不同模态之间的调控关系构建一个模态联结图。图中的节点对应于特定模态中的个独立特征。Monae 中的图自编码器学习每个节点的表示,如图1a 所示。在 Monae 中,不同的自编码器编码各个模态,其中的非对称网络生成对比学习的正样本和负样本如图1b所示。自适应聚类用于增强 Monae 对比学习的细胞表示,增加异质簇之间的判别性,如图1c所示。Monae 获得图联结节点嵌入和对比学习的细胞嵌入,后者用作多模态整合细胞表示(如图1d所示)。对于插补,Monae 将来自联合空间的细胞表示与模态联结节点特征融合以推理插补计数。对于变体Monae-E,可以将多模态细胞作为节点添加到图1a中的图联结中。Monae-E从图自编码器获得所有节点的嵌入,包括细胞嵌入和特征嵌入,再使用细胞嵌入来替换Monae中非对称网络的计数输入,后续过程与 Monae 一致,如图1e 所示。


1. 模型架构和工作流程

相关成果以Modal-nexus auto-encoder for multi-modality cellular data integration and imputation”为题,发表于Nature Communications。北京大学深圳研究生院研究员、科学智能(AI for Science,AI4S)中心主任陈语谦中山大学智能工程学院由林麟副教授和腾讯Jianhua Yao为共同通讯作者;中山大学博士生、北京大学深圳研究生院研究助理唐振超为第一作者。


论文链接:https://www.nature.com/articles/s41467-024-53355-6


—— 分享 ——

上一篇:推动科技创新,弘扬创业精神:北大信工科创家沙龙(第1期) 暨溪有物种创业沙龙(第34期)圆满落幕

下一篇:培育创新人才,激发科研活力:北京大学深圳研究生院信息工程学院科创新星评选大赛圆满落幕