近年来,空间转录组学技术迅速兴起,但其高昂成本和复杂实验流程让它难以普及。然而,最新发表在 Nature Methods 的研究提出了一种颠覆性思路:让传统的 H&E 染色图像“读懂”基因表达,从而用图像直接预测分子信息。核心成果集中于 OmiCLIP,这是一个融合图像与转录组数据的大规模基础模型;基于它,研究团队还开发了 Loki 平台,将该模型实用化,提供对齐、注释、分解、检索和表达预测五大功能。这项工作堪称数字病理学的里程碑。
一、大规模数据构建:打通视觉与组学的“数据桥梁”
团队从 32 个器官、1007 份样本中收集了超过 2.2 百万对病理图像补丁与 10× Visium 空间转录组数据,构建“ST‑bank”。每个补丁对应其局部的基因表达信息。数据规模前所未有,为模型带来极强泛化能力,也为预训练提供了坚实基础。
二、OmiCLIP 模型原理:将图像和基因“说同一种语言”
借鉴 OpenAI 的 CLIP 模型框架,OmiCLIP 将每个图像 patch 编码为视觉向量,将同一区域表达量排名靠前的基因符号拼成“句子”,再编码为文本向量。利用对比学习,让视觉与文本向量在潜空间对齐:模型学习到图像结构与基因表达之间的对应关系。预训练后,这个视觉–组学基础模型具备跨模态理解能力,为后续应用奠定核心支撑。
三、Loki 平台落地:五大模块实现多场景应用
Align(对齐)
支持 ST 图之间对齐,也能将 H&E 图与 ST 图对齐,用于消除样本间差异甚至实现 3D 体块拼接。实验证明,Loki Align 在真实和模拟数据中表现均优于 PASTE、GPSA 等工具。
Annotate(注释)
通过 bulk RNA-seq 或 marker gene,对 H&E 图区域进行自动注释,例如区分肿瘤、基质或免疫细胞富集区。模型通过图像–文本语义匹配,完成病理结构定位。
Decompose(细胞分解)
利用 scRNA-seq 参考,将 H&E 图像切片在视觉空间里分解为细胞类型组成比例。在乳腺三阴性肿瘤(TNBC)和结直肠癌(CRC)样本中,Loki Decompose 的结果与真实分布高度一致,甚至超越传统工具如 Tangram。
Retrieve(检索)
支持图像→转录组检索,也支持基因表达向图像区域反查。这一功能可以让科研人员通过图像找到最类似某种表达模式的区域,或通过表达模式对疾病进行“图像标注”。
PredEx(表达预测)
只用 H&E 图像,预测空间基因表达。实验中预测出的 marker 基因空间热图与真实 ST 数据高度一致,为研究带来“虚拟实验”可能,尤其适合节省成本或做预筛选。

四、多任务评估:22 种模型、27 个数据集一致优异
Loki 团队面向五类下游任务,比对了 22 种国际 SOTA 方法,用了 5 个模拟数据集、19 个公开实验数据集和 4 个内部实验数据集进行验证,Loki 在所有任务中表现出了稳定且领先的准确率与鲁棒性。
五、研究亮点与工程实现
数据优势:百万级图像–表达对应极大提升模型泛化;
技术设计:gene‑to‑sentence 的文本编码创新对齐方式;
预训练+微调:CLIP 式预训练后,针对各个模块 fine‑tune,避免泛化损失;
开源+可复现:团队公开了代码、预训练权重、API 和教程。
六、典型案例
在多个真实案例中,这个系统表现令人惊艳:
• Loki Align 将多切片小肠切片对齐,消除批次差异,适合 3D 重建;
• 在 TNBC 和 CRC 图像中,Decompose 自动标注免疫/上皮/基质细胞空间分布,一致性强;
• PredEx 模块预测 KRT7、ATCG2 等 marker 空间表达,与真实 ST 热图相符。
七、Loki 的应用前景与局限
优点明显:仅凭常规 H&E 图像即可完成空间视图预测,大幅降低成本,适合医院大规模历史样本挖掘,还可用来辅助三维组织构建与单细胞融合分析。
挑战方面:预测精度还未达到利用真实 ST 数据用于关键临床决策的水平,对罕见组织类型可能仍需补充数据。目前只适用于 H&E 图像与 Visium 类型数据的场景。
八、科研与科普建议
科研团队可以将 Loki 集成到已有工作流,先用 H&E 图片预测表达,再选靶做 ST 或 IHC 验证;医院可以将切片库赋予分子注释,作为辅助诊断数据来源;科普方面,这是一则 AI×组学真正“让图像听得懂基因”的生动案例。
九、总结
OmiCLIP 为视觉与组学搭建了强大的基础模型,Loki 平台则将模型功能落地,覆盖从样本对齐、结构注释、细胞分布分解、表达预测到检索查询的全流程功能。这项工作开启了 H&E 图像的“第二生命”,对数字病理、空间组学乃至疾病诊断都具有深远影响。