Nat Biotech背靠背 | 哪种更好？系统分析7种单细胞（核）RNA测序技术

2020-04-10编辑：极客基因点击：1573

单细胞基因组技术是目前生物系统研究的一种强有力方法。其中，单细胞RNA测序技术（scRNA-seq）在最近十年来取得了长足的进步，科学家已经研制了几十种scRNA-seq方法。由于不同细胞表达的基因有差异，scRNA-seq可用于对细胞的精确分类。随着技术的发展，一项大型国际合作计划 - 人类细胞图谱计划（Human CELL ATLAS），由来自Broad Institute of MIT and Harvard（布罗德研究所）的 Aviv Regev和来自Wellcome Trust Sanger Institute的Sarah Teichmann牵头应运而生。这个计划的一个主要目标就是对人体不同组织的细胞进行分类。

对于人类细胞图谱计划，一个需要解决的问题是scRNA-seq方法的选择。另外，我们需要知道各种scRNA-seq系统的优缺点，从而更好地设计新的scRAN-seq技术并改进现有的scRNA-seq方法。最后，为了更好地设计单细胞测序数据分析的计算方法，我们需要高质量的数据。

2020年4月6日，来自Broad Institute of MIT and Harvard的Joshua Z. Levin团队在Nature Biotechnology上发表了文章Systematic comparison of single-cell and single-nucleus RNA-sequencing methods，比较了7种方法 （图一），包括低通量的Smart-seq2，CEL-Seq2和五种高通量方法 （三种基于微液滴技术，Drop-seq，inDrops, 10x-Chromium，一种基于微孔阵列的 Seq-Well，和基于组合标记的sci-RNA-seq)。其中，只有Smart-seq2是测整个RNA分子全长，其它六种方法都是测RNA分子的3片段端。对于这六种方法，UMI （unified molecular identifier）被用于消除PCR扩增而引起的偏差。

图1：研究概括

为了比较不同scRNA-seq系统，研究人员选择了常用的组织样本（图一），包括人和小鼠的细胞系，人外周血细胞，以及大鼠大脑皮层细胞（用于单细胞核RNA测序）。对每种组织样本，研究人员根据七种scRNA-seq方法同时并行处理。研究人员还开发了数据分析系统scumi（https://bitbucket.org/jerry00/scumi-dev/src/master/）可以分析来自于不同scRNA-seq系统的数据。对于其它不同于以上七种scRNA-seq技术的数据，scumi也可以分析，仅仅改动配置文件即可。

研究发现低通量的Smart-seq2和CEL-Seq2具有更高的敏感性，可以检测到更多的RNA分子。Smart-seq2可以测RNA分子全长，但是比CEL-Seq2更贵。然而，CEL-Seq2数据有可能包含污染（对于一个细胞，一部分来自于其它细胞的RNA分子可能被错误地标记为来自这个细胞）。对于高通量方法，10x Chromium （v3）具有最高的灵敏度。相对于10x Chromium （v2）数据，v3数据有更多的线粒体基因RNA。在细胞分类方面，10x Chromium表现最好（图二）。10x Chromium 数据具有相对较多的反义序列（antisense reads）。Drop-seq和inDrops具有较低的额灵敏度。然而对于细胞分类，通常并不需要太多RNA分子，所以inDrops和Drop-seq也可以检测到所有的细胞类型。需要注意的是Drop-seq和Seq-Well用的是同一种微球（beads），每个微球上所带的序列（用于标记来自于一个细胞的所有RNA分子）是完全随机的。而且厂家在制备微球时，一些微球上的序列在合成过程中产生了错误，比如只合成了十一位，而真正需要的是合成十二位的序列。对于Drop-seq，inDrops和Seq-Well，有相当大一部分数据没有正确的结构。比如，在正常情况下，在UMI序列后面是poly-T序列，但是一部分测序数据没有这样的结构。通常，这些没有正常结构的数据质量差，在分析中被丢弃了，导致测序数据的浪费。CEL-Seq2和inDrops是基于线性扩增，因而技术偏差较小。基于组合标记（combinatorial indexing）的sci-RNA-seq具有更好的扩展性（stability），可以在一个实验中制备上百万个细胞。然而，sci-RNA-seq可能还需要更近一步优化，因为在它在一些组织样本上表现不好，比如外周血。而且，这种方法可能容易受污染，比如在单细胞核测序中出现的不明确的细胞类型。

图二：用来自于不同scRNA-seq方法的数据在检测人外周血细胞类型的效果（AUC《=1,越大越好）。

这项研究中所有的原始数据都可以从GEO上下载 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE132044处理后的数据可以在single cell portal下载和在线分析（访问号SCP424，SCP425，和SCP426）（例如，https://singlecell.broadinstitute.org/single_cell/study/SCP424）。这项研究为今后人们选择scRNA-seq方法提供了指导。同时，这项研究为scRNA-seq数据分析中的许多挑战问题提供了解决思路和方案，比如怎样从测序数据中选择真正的细胞而非空液滴，系统处理来自于不同scRNA-seq方法的数据，怎样选择各种后期处理参数，比如聚类分析参数等等。由于这项研究中用到的细胞都是实验室容易获得的，在今后，当研究者需要评估一种新的scRNA-seq方法或改进scRNA-seq方法时，她们可以直接比较他们所得新数据和这项研究中所得数据，而不需要重复已有实验。最后，对于计算机科学家或计算生物学家，这些数据可以用于设计和改进现有scRNA-seq数据处理方法。

这项研究由22位作者共同完成。作者包括来自于Broad Institute Aviv Regev实验室的博士后研究员Jiarui Ding(丁家锐)，研究科学家Xian Adiconis和Sean Simmons。通讯作者是来自于Broad Institute of MIT and Harvard 的Joshua Levin。

需要注意的是，一篇相关的文章，由来自于巴塞罗那 CNAG的科学家Holger Heyn任通讯作者的文章也发表在同一期的Nature Biotechnology上，题目为Benchmarking single-cell RNA-sequencing protocols for cell atlas projects。在Broad Institute的研究中，所有的scRNA-seq数据都在同一个研究所产生，因而可以更好的控制实验中的各种变量，比如实验开始时间，测序仪等。而CNAG的这项研究采取了一种互补的方法：首先创建细胞混合物（细胞来自于人，大鼠，还有1%的细胞来自于狗），然后把这些细胞混合物分发给世界上不同实验室。因而每一种scRNA-seq实验都是由在这种方法方面具有丰富经验的实验室专家完成，这样做的目的是减少实验人员对不同方法的熟悉程度对结果的影响。结果表明，低通量方法Quartz-seq2，Smart-seq2，和CEL-Seq2表现出色，高通量方法中，10x Chromium表现最好。

原文链接：

https://doi.org/10.1038/s41587-020-0465-8

https://doi.org/10.1038/s41587-020-0469-4

来自：单细胞前沿

关注极客基因公众号

看单细胞测序前沿资讯