logo

logo

産品服務

Sequencing services

全長轉錄組

産品介紹       

       基于二代測序平台的轉錄組由于讀長的限制(PE100/PE150),在轉錄本組裝的過程中存在較多的嵌合體,并且不能準确的得到完整轉錄本的信息,從而對後面的表達量分析、可變剪接、基因融合等分析造成了較大的影響。基于PacBio的單分子實時測序技術,目前平均讀長已經達到10K以上,最長可達40Kb,其長度已經超過一般轉錄組中典型的基因的長度,所以利用第三代測序平台進行轉錄組的研究,可以直接得到全長轉錄本信息,而無需組裝,從而最大限度的保證了轉錄組測序結果的準确性。

研究内容

       全長轉錄組基于PacBio的單分子實時測序技術,可以直接得到全長轉錄本信息,無需組裝,最大限度的保證了轉錄組測序結果的準确性,補充已注釋基因組的基因注釋結果,發現新的基因和轉錄本,鑒定可變剪接、基因融合現象、APA位點(Alternative polyadenylation,選擇性多聚腺苷化位點)等,并改善基因表達定量。

      對于無參考序列的物種,全長轉錄組測序可以構建高質量的基因集,為後續物種的功能研究奠定基礎。

      對于有參考序列的物種,可發現新的轉錄本,完善參考基因集;并鑒定可變剪接、基因融合等結構變異。

      此外在基因組研究中,全長轉錄組還可以用于輔助基因組基因注釋

産品優勢

策略多樣:除常規的全長轉錄組文庫外,還可根據需求增建5-10K大片段文庫,滿足客戶對長轉錄本的研究需求。

通量大:華大基因擁有12台Sequel測序儀,通量大,測序成本低,周期短。

樣品起始量低:華大基因全長轉錄組樣本需求僅1ug,遠低于同行樣本量需求。

信息分析内容全面:實時跟進科學研究前沿,不斷升級信息分析内容。

個性化分析:具有豐富個性化分析經驗,可根據項目需要選擇最适宜的分析軟件,隻為保障最精準結果。

無需組裝:長讀長不需要組裝,就可以準确的得到全長轉錄本的序列信息。

精準基因集:借助三代讀長的優勢獲得更精準基因集,可以改善基因表達定量的結果。

更多新發現:可以發現新的基因和轉錄異構體,并準确的鑒定可變剪接及基因融合現象。

輔助基因注釋:可輔助基因組de novo基因注釋,獲得更好的基因注釋結果。

經驗豐富:華大基因自2015年推出全長轉錄組産品以來,已完成800+個全長轉錄組測序。目前華大基因的Sequel平台運行良好,實驗及信息分析人員上機及問題處理經驗豐富。


案例一:三代測序研究玉米轉錄組的複雜性

Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing(Nature communications, 2016).

方案設計:

材料選擇:玉米自交系B73不同發育階段的6個組織(根、花粉、胚芽、胚乳、幼雌穗、幼雄穗),提取RNA;

測序策略:

二代測序:6個組織進行二代RNA-Seq測序,每個樣品三個重複;

三代測序:每個樣本反轉錄之前加入特異性barcode,後續進行等量混合,上機測序47cell;

分析方案:檢測玉米可變剪接現象;轉錄因子分析;lncRNA分析;融合基因分析;甲基化分析。

主要結論:

  1. 構建5種不同片段大小的文庫,上機測序47cell,總共産生3,716,604條reads,過濾掉低質量的reads,總共獲得1,553,692 條全長的轉錄本序列(FL)。
  2. 和RefGen-V3的isoforms進行長度比較,發現全長轉錄本預測出來的轉錄本整體上比V3基因集的要長。在目前的V3基因集中一個基因平均有2.84個isoforms,而全長轉錄組數據顯示,一個基因平均有6.56個isoforms,是前者的兩倍多。Isoforms的組織特異性分析顯示:花粉有更高的組織特異性,而根的特異性最低。
  3. 在玉米的V3參考基因集中,轉錄因子數目為2,624,分為57個家族。全長轉錄組解決方案将轉錄因子的數據增加到5,423個,幾乎是兩倍
  4. 鑒定出878個lncRNA,其中11個是以前報道過的,867個是新的lncRNA。 這些lncRNA的平均長度為1.1kb(範圍為0.2kb-6.6kb),比之前的認知的lncRNA要長很多(平均400+kb)。花粉擁有最多的特異的lnc(238個),穗是最少的lnc(68)個。
  5. 從Pacbio數據中鑒定出1,430個融合轉錄本。其中143個被Illumina數據支持。結果表明,融合事件多發生在染色體間。

案例二:三代和二代測序結合研究揭示丹參藥用成分合成機理 

Full-length transcriptome sequences and splice variants obtained by a combination of sequencing platforms. (Plant Journal,2015)

方案設計:

研究材料:丹參酮一般認為産生于丹參根部周皮部,研究分别取了根部的周皮(periderm)、韌皮(phloem)、木質(xylem)3種類型的根部組織進行了mRNA測序。

研究方法:3種類型根部樣本各設置3個生物學重複,總共9個樣本,采用HiSeq2500 PE100進行測序,每個樣本産生~5G raw data 。9個樣本混合測序,采用PacBio RSII 進行測序,建<1kb、1-2kb、2-3kb、>3kb 四個SMRT bell文庫,總共産生~4.8G raw data;

主要結論:

  1. 采用HiSeq2500 數據對PacBio RSII平台所産生的subreads進行了校正,最後得到了16,241個高質量非冗餘isoforms。
  2. 基于HiSeq2500産生的mRNA數據的差異表達分析,發現了在根部周皮部特異表達與者高表達丹參酮合成相關基因,SmCPS1、SmKSL1、GGPS、IPI、CYP等;
  3. 最後研究者使用得到的16,241個高質量的Isoforms進行了可變剪接分析,發現了大約有40%檢測基因位點發生了可變剪接現象,其中有些基因參與了萜類化合物代謝及類異戊二烯代謝。



RNA樣本送樣建議

PacBio轉錄組(Sequel)
樣本類型 總量 濃度 RIN 28S/18S 基線和5S 純度
Total RNA 1μg 285ng/μl RIN≥8.0 28S/18S≥1.4 基線平整,5S峰正常 OD260/280≥1.8
OD260/230≥1.8

組織樣本送樣建議

組織類型

送樣量(提取RNA

新鮮動物組織幹重

50-200mg

新鮮植物組織幹重

500-1000mg

新鮮培養細胞

5×107--2×108

全血(哺乳動物)

2-5mL

全血(非哺乳動物)

0.5-2mL

菌體

2×107--2×108

藻類

2×107--2×108個或1-2g



Q1:PacBio平台的測序原理?

A1:PacBio是基于單分子,實時測序Single-Molecule, Real-Time(SMRT)技術:建好的文庫放在SMRT Cell上進行測序,Sequel SMRT cell中有100萬個ZMW;每個孔下面固定DNA合成酶,當待測DNA分子下降到孔中時會與DNA合成酶結合,同時在該酶的催化下,進行了DNA鍊的合成。由于使用了帶有熒光标記的dNTP,在合成時熒光基團會發出亮光,通過檢測亮光來讀取堿基。

Q2:PacBio平台轉錄組産品的優勢?

A2:相比于HiSeq平台的轉錄組産品,PacBio轉錄組不需要組裝,就可以得到全長轉錄本的信息。而二代測序由于讀長的限制,得到的全長轉錄本的數量、準确度及完整性是大打折扣的。

Q3:PacBio目前能接原核轉錄組嗎?

A3:目前全長轉錄組主要針對真核轉錄組,如果需要做原核轉錄組或LncRNA,可以個性化溝通。

Q4:Sequel轉錄組還需要建3-4個文庫嗎?

A4:之前用RSII測序平台時推薦建3-4個文庫,主要是因為RSII上機偏向性較大,如果要是構建1個文庫,而文庫的片段範圍是1-10K的話,那上機的時候的數據會有大部分都是小片段的,大片段的轉錄組所占的比例會非常少,數據量也就很少,因為小片段更利于掉入ZMW小孔中。

Sequel平台在上樣偏向性上有較大的提升,不需要構建3-4個文庫,構建一個文庫(1+0.4X磁珠純化文庫)即可得到和轉錄本實際分布相符的結果;若物種長轉錄本較多,也可以增建一個4.5-10k文庫。

Q5: PacBio Sequel轉錄組推薦的測序方案?

A5:建庫:0-5kb文庫(1+0.4X磁珠純化文庫);測序:1-2個Cell。

轉錄組0-5K文庫也包含5K以上片段,測序結果反映轉錄本的真實情況。

如果特别關注5K以上的長轉錄本,也可以增加一個4.5-10K的文庫。

Q6:全長轉錄組結題報告中的數據量怎麼看?

A6:關于全長轉錄組結題報告數據量解讀,目前全長轉錄組結題報告中有下機數據量統計,subreads統計以及reads of insert(CCS)統計。Polymerase, subreads 和reads of insert(CCS)對應關系如圖1所示:

Picture1

圖1 全長轉錄組測序結果展示圖

表1是下機數據統計,就是我們一般承諾的數據量,這裡選擇了一個數據量小的項目(或者是截取了一部分數據)做的流程。Total base就是下機數據量。Total reads一般跟P1的比例有關(~1,000,000*P1,1,000,000是Sequel的ZMW孔數)。平均讀長代表的酶讀長,Sequel一般承諾8K以上,讀長越長,CCS序列的準确性越高。

注意:三代下機數據是自動過濾了質量值小于0.8和讀長小于50bp的片段後的數據,不需要像二代測序那樣再進行數據過濾,所以三代下機的都是有效數據,沒有clean data和raw data的概念。

表1 聚合酶讀取(Polymerase Reads)情況彙總

Sample

Library

Cell Number

Total Reads

Total Base(GB)

MaxLength (bp)

MeanLength (bp)

N50 Length(bp)

1

A

1

494927

8.78

113085

17737.35

35855

表2是subreads數據統計,代表原始下機數據去了接頭以後的數據。一條polymerase去接頭以後會生成多條subreads,所以這裡的total reads數比較多。總數據量和去接頭前沒有大的差别。平均長度跟插入片段長度有關。這個平均長度比表3的平均長度短,可能是受一些不完整片段的長度影響。

表2 Subreads情況彙總

Sample

Library

Cell Number

Total Reads

Total Base(GB)

MaxLength (bp)

MeanLength (bp)

N50 Length(bp)

1

A

1

3836208

8.78

72300

2288.38

4661

 

表3 測序情況彙總

Sample

Library

Cell Number

Reads of Insert

Read Bases of Insert(bp)

Mean Read Length of Insert(bp)

Mean Read Quality of Insert

Mean Number of Passes

1

A

1

484946

1,758,449,481

3626

0.9

6

表3是CCS數據統計,就是之前結題報告中提供的數據。對表2中每條序列的多個subreads進行自糾錯,得到一條read of insert,read of insert的數量是和表7的total reads數基本一緻的(略偏少)。平均長度跟轉錄本的平均長度接近。


深圳華大科技(總部)

電話:400-706-6615
郵箱:info@genomics.cn