近几年,以空间转录组学为代表的空间单组学技术,作为探索生命科学领域的前沿工具,逐渐成为生物科学研究中不可或缺的重要手段。其将基因表达的热点精准地投射到组织区域,极大地拓展了我们对生物功能和细胞特性的理解。然而,生物学的复杂性远超我们最初的设想。基因只是故事的讲述者,而蛋白质、代谢物乃至翻译后修饰共同构成了故事的“情节”。要真正理解疾病的发生、肿瘤的演化或胚胎的发育,我们不仅需要“转录组”这一种语言,更需要同时解读“基因组”的底层逻辑、“蛋白质组”的执行动态以及“代谢组”的即时反馈(图1)。
技术已经迈入了“空间多组学”时代,但数据分析的“基础设施”却依然停留在“单组学”的孤岛之上。本文将聚焦这一空白,基于《Spatially Resolved Multiomics: Data Analysis from Monoomics to Multiomics》这篇综述初步概述空间组学数据分析的相关流程,此综述梳理了空间单组学五大技术分支的最新进展,构建了从数据预处理→细胞类型鉴定→下游功能分析→多组学整合的完整分析路线,提出了标准化的空间多组学数据整合框架,为科研与临床工作者提供从技术选型、数据分析到转化应用的全链条指导,助力复杂空间数据的深度挖掘与精准解读。

图1 空间单组学数据分析流程(黄:空间蛋白组;紫:空间代谢组;红:空间转录组;绿:空间基因组;蓝:空间表观基因组)
以往我们主要聚焦在转录水平,今天就以空间多组学中的功能层面——“空间蛋白组”为例来概述空间组学数据的分析流程(图2)。空间蛋白组可以分两大技术路线:一是以质谱流式为主,用抗体偶联金属标签,激光消融 + 质谱定量实现蛋白空间定位;二是多重免疫组化,采用荧光 / DNA 条形码标记抗体,多轮染色实现多靶标蛋白成像。技术优势高信噪比,可实现蛋白原位可视化,直接反映细胞功能状态;但也存在着抗体成本高、靶标通量有限,无法实现全蛋白组无偏检测等局限。
图2 空间蛋白组
空间单组学从原始数据到功能解析的完整分析流程,核心分为[预处理阶段]和[下游功能分析阶段]两大模块,属于空间组学数据分析的标准化操作。
1. 数据预处理(核心:质控、降噪、标准化)
数据预处理是空间蛋白组学数据分析的基础环节,核心目标是提升数据质量、消除异质性,将复杂的图像或质谱信号转化为可用于下游分析的蛋白质-细胞或蛋白质-像素矩阵。空间蛋白组学方法主要分为基于质谱和基于图像两大类,因此预处理除基线校正、平滑、去噪、峰提取和对齐等通用步骤外,还需针对性开展专属处理:
(1)图像预处理与细胞分割,可利用U-Net、Cellpose、SCS等深度学习工具分割细胞区域,实现蛋白质丰度与空间位置的精准关联;
(2)缺失值填补,针对低丰度蛋白导致的缺失数据,可通过插入不完整时间序列数据并基于拟合值估算,或采用k近邻(k-nearest neighbor)等机器学习算法进行填补,避免后续分析出现偏差;
(3)数据标准化,可借助edgeR和DESeq2包计算M值及对数表达标准化的加权修剪均值,标准化后可通过主成分分析(PCA)评估数据质量,确保数据可靠性。
2. 细胞类型鉴定(实现空间原位的细胞精准分型)
细胞类型鉴定是空间蛋白组学解析组织异质性、绘制器官图谱的基础步骤,核心流程包括细胞簇聚类与细胞类型注释,常结合单细胞数据提升鉴定准确性。在聚类分析方面,常用算法各具特性:K均值聚类可将数据划分为k个不同细胞簇,但侧重簇的生成而忽略簇间关系;层次聚类需通过复杂参数校正保障结果与实际的一致性;半监督机器学习(Semisupervised ML)常用于蛋白质组学聚类;基于高斯混合模型的PhenoDisco工具可识别基于质谱的蛋白质组学数据中潜在的细胞器群;PhenoGraph则依赖记录事件及其联系的网络,精准将数据聚类到表型类别中。在细胞类型注释方面,MAP工具采用前馈神经网络,显著提升计算效率,可快速准确地完成注释;若某细胞与预定义细胞类型不匹配,可将其判定为与邻近细胞相同的类型,进一步保障注释的完整性。
3. 空间邻域分析(解析细胞间的空间共定位、互作关系)
空间邻域分析聚焦于解析细胞与微环境的通讯机制,探索细胞空间排布规律及功能协同关系。细胞需通过释放可溶性分子、直接细胞接触等方式与微环境通讯,并响应外部信号调整自身状态,不同类型细胞会迁移至特定空间位置形成重复功能单元。
该环节核心分析方向及工具包括:一是蛋白质空间模式分析,可通过CytoMAP或Spatial-LDA工具揭示组织功能区域;二是细胞间相互作用推断,借助SpaTalk工具或集体最优传输方法解析细胞间信号传导路径;三是空间聚类分析,利用DeepST、SPACEL和SLAT等工具识别具有相似表达模式的空间域,同时支持跨切片数据对齐,为多样本联合分析提供基础。
组织功能区域分析旨在结合多维度数据解析功能域的生物学意义,为机制研究与临床应用提供支撑,核心包括通路分析、生物标记发现及多组学整合三大方向。在通路分析方面,可通过KEGG、MSigDB数据库及GSEA方法探索蛋白质相关的生物学通路,借助GSVA评估通路活性,明确功能区域的分子调控机制;在生物标记发现方面,利用MAP和PhenDisco等工具识别疾病特异性蛋白质标记,为疾病诊断提供潜在靶点;在多组学整合方面,通过SCENIC+和SpatialData框架结合转录组数据,可有效揭示基因调控网络及分子异质性,深化对组织功能区域的认知。此外,Tissue Schematics等工具也为组织功能区域的系统分析提供了技术支撑。
除了每一单组学外,针对空间多组学的整合挑战,首次提出了[跨切片 - 跨平台 - 跨模态]三维整合框架,并明确了核心算法与应用方向。
l 传统统计模型:基于实验设计选择锚点,实现不同数据集的锚定整合,适配不同组学的分子特征;
l 深度学习模型:SLAT、STAligner、DeepST、SPACEL 等,基于图自编码器提取不同数据集的共享特征,构建联合潜在空间,消除批次效应,实现跨数据集的精准比对。
与单细胞组学、空间转录组学等技术的多组学整合策略将不断完善,实现从分子、细胞到组织层面的空间相关性、识别统一的组织空间结构域、解析复杂生物学过程的多维度调控机制。此外,临床样本兼容性的提升与检测成本的降低,将推动空间多组学从基础研究走向临床精准医疗,成为疾病诊断、预后评估、靶点发现的常规工具。
更多精彩内容与细节,可以阅读原文。
参考文献
Huan C, et al., Spatially Resolved Multiomics: Data Analysis from Monoomics to Multiomics. BME Front. 2024.