理化学研究所(理研)BDR中心(Center for Biosystems Dynamics Research)的金坚石博士, 小川泰策博士(参与研究时),北条望博士和城口克之课题组长(教授)以及東京大学定量生命科学研究所岡崎拓教授、清水謙次助教,東海大学医学部基础医学系今西规教授、Kirill Kryukov奨励研究员(参与研究时),東京理科大学生命医科学研究所伊川友活教授等组成的研究团队成功开发出了一套基于活细胞图像推断全转录组定义细胞分子表型[1]的新平台。该平台通过对同一单细胞分别测定活细胞视频图像和全转录组,结合深度学习,成功从活细胞动态图像直接推断出了全转录组定义的细胞分子表型。
理化学研究所BDR中心(Center for Biosystems Dynamics Research)的金坚石博士在此次开发的 “ALPS”前。(供图:理研)
由于能够快速、低成本地鉴定包括细胞类型和细胞状态在内的细胞分子表型,所以该研究的应用前景广阔,比如可以应用于细胞治疗中植入前评估细胞的状态。由于不再需要使用鉴定细胞类型的分子标记试剂而节省成本。此外,对分子标签未知或者很难制备分子标记试剂的细胞类型或状态也是非常有效的策略。
研究团队此次开发出了一套可自动进行显微镜成像和单细胞分选的机器人“ALPS(Automated Live-imaging and Cell Picking System)”。ALPS可自动化视频成像培养皿中一定区域内的每个细胞,通过逐一分离到96孔PCR板中,可在大约16分钟内成像和分离96个细胞。在以三种血液细胞为对象的实验中,研究团队利用二代测序技术 [2]对ALPS成像并分离的细胞进行了单细胞RNA测序分析[3],合计测定了1,000多个细胞的全转录组;同时研究团队还使用人工智能的深度学习[4]技术,提取出了细胞图像与全转录组之间的关系,从中推断出了细胞的全转录组定义的类型或状态。相关内容已于2022年12月28日发布在科学杂志《Proceedings of the National Academy of Sciences of the United States of America(PNAS)》在线版上。
图1 从单细胞图像推断全转录组定义的细胞类型或状态(供图:理研)
近年来,人们发现虽然构成组织和细胞群的细胞看起来很相似,但实际上有许多不同的类型和状态。所以在细胞研究中,重要的是确定细胞的类型和状态。确定细胞的类型和状态的典型方法是单细胞RNA测序技术,用以全面测量细胞中表达的RNA总类和数量,从而测定每个细胞的全转录组状态。然而,这一方法一般需要将细胞破碎后再进行分析,因此很难测量动态变化的状态,比如测量同一个单细胞在不同时间的全转录组。
作为一种非侵入式识别细胞类型和状态的方法,基于图像的人工智能(深度学习)方法正在引起人们的关注。人工智能可以通过学习大量被标记了状态(如癌症等)的细胞或组织图像来获得图像与细胞状态之间的关系,从而对新的细胞图像推断出细胞的状态。
“ALPS”实现细胞图像高速采集和全转录组分析
此次研究团队开发的自动化细胞成像和分选的机器人“ALPS”,实现了对同一细胞的视频图像高速采集和全转录组分析(图2)。ALPS可通过光学显微镜自动重复观察大量细胞,并可通过实时分析图像来检测细胞特性,最后根据细胞的图像结果自动化分选细胞。同时为了对分选后的细胞进行全转录组测序,研究团队还对ALPS分选得到的96个细胞同时进行自动化测序建库。在细胞分选中,细胞的吸取和放入PCR管中的步骤都通过相机实时记录和确认。该系统还可用于绝对数少的细胞和细胞集团的纯化。
图2自动细胞成像与分选机器人“ALPS” (供图:理研)
研究团队使用ALPS和自动化测序建库系统实际分析了混合有多种小鼠血液系统培养细胞的样本,并获得了总计1,000多个细胞的时间序列活细胞图像和全转录组数据集。基于每个单细胞的全转录组数据集,这些细胞被鉴定为三种细胞类型(T细胞、白血病细胞和造血祖细胞)(图3)。
图3同一细胞的图像与转录组数据集(供图:理研)
上图左为T细胞(蓝色)、白血病细胞(绿色)和造血祖细胞(红色)随时间变化的活细胞图像(每分钟拍摄一帧,持续拍摄30分钟)。上图右为由ALPS成像后分离得到细胞的转录组分析结果。该分析采用了t相邻域嵌入方法(tSNE法),在二维图中投影每个细胞全转录组的相对区别,图中一个点代表一个细胞。通过聚类分析全转录组,细胞被分成了三组,每组代表一种细胞类型。左右图中数字表示相同的细胞,所有细胞都获得了图像和转录组数据。
使用该数据集,研究团队尝试了从时间序列活细胞图像中直接推断转录组鉴定的细胞类型。首先,使用数据集中大约95%的细胞,对深度学习模型进行训练来提取图像和转录组定义细胞类型之间的相关性。然后,使用深度学习获得的模型从时间序列活细胞图像中推测剩余5%细胞的细胞类型。研究团队比较了深度学习推测的细胞类型以及通过转录组鉴定的细胞类型,发现推测的准确率达到了81%(图4)。由此研究团队认为深度学习有能力从细胞图像中直接推断出由转录组定义的三种细胞类型(T细胞、白血病细胞和造血祖细胞)。
图4从细胞图像推断细胞类型时的准确率(供图:理研)
从时间序列活细胞图像推断三种由全转录组定义的细胞类型时,其推断准确率可达81%。“ALPS配对”是指用APLS正确连接的细胞图像和全转录组定义的细胞类型的数据集来进行的深度学习结果。“随机配对”是指用随机标记了细胞类型的细胞图像数据集来进行的深度学习结果。“ALPS配对”和“随机配对”的明显区别表明,深度学习可以提取细胞图像和转录组定义细胞类型之间的相关性。
为了测试该方法是否可以区分同一细胞类型的不同细胞状态时,研究团队首先通过转录组鉴定出了造血祖细胞中具有不同基因表达模式的两种细胞状态,然后验证了深度学习可以通过时间序列活细胞图像区分这两种细胞状态。另外,为了证明这种方法对从活生物体中直接获取的细胞也有效,研究团队用该方法直接分析了小鼠外周血单核细胞(PBMC)。结果显示,深度学习能够从时间序列活细胞图像显著区分由转录组鉴定的三种核心免疫细胞,即B细胞、CD4+T细胞和CD8+T细胞。这些结果都表明,深度学习可以从细胞图像直接推断出多种全转录组确定的细胞类型和状态。
本次研究开发的基于活细胞图像推断全转录组定义细胞分子表型的技术平台可以说是近年来备受关注的BioDX[5] 的成果之一,有望进一步推广BioDX并为各种生命科学研究做出贡献。本研究由理化学研究所运营基金(BDR中心“DECODE项目”)和文部科学省创新领域科学研基金(研究领域提案)资助(课题负责人:城口克之)。
名词解释
[1]全转录组定义的细胞分子表型
即使具有相同DNA序列的细胞也可以通过表达不同的基因来执行不同的功能。在本文中,以被测量到的所有基因的表达量来定义的细胞分子表型被称为“全转录组定义的细胞分子表型”。
[2]二代测序技术
与“一代测序技术”相对的术语,“一代测序技术”现在主要指Sanger测序法。“二代测序技术”相比“一代测序技术”,其测序通量提高了几个数量级,一次可以确定大约107到1010(1000万到100亿)个DNA序列。
[3]单细胞RNA测序技术
利用高通量DNA测序仪分析单个细胞中所含RNA(主要是互补DNA)的序列,从而全面定量确定基因的种类和数量的方法。
[4]人工智能(AI)(深度学习)
深度学习是人工智能(AI)的一种方法,用于训练计算机以学习的方式处理数据。深度学习模型可以识别图像和其他数据中的复杂模式,从而实现准确的预测。
[5]BioDX
生命科学研究中的“数字化转型(DX)”。预计利用信息技术实现创新飞跃。
文 曹晖 JST客观日本
【论文信息】
杂志:Proceedings of the National Academy of Sciences of the United States of America(PNAS)
论文:Robotic data acquisition with deep learning enables cell image–based prediction of transcriptomic phenotypes
DOI:doi.org/10.1073/pnas.2210283120
【相关研究】
理研等成功开发出高通量菌群分析新技术,开辟单细胞水平菌群测定的先河
理研开发出精确测量肠道细菌数量和种类的方法,可掌握微妙的变化