logo

logo

産品服務

Sequencing services

  • 首頁動植物 de novo 測序

動植物 de novo 測序

       動植物de novo 測序即動植物從頭測序,指不需要任何參考序列信息即可對某個物種進行測序,用生物信息學分析方法進行拼接、組裝,從而獲得該物種的基因組序列圖譜。利用全基因組從頭測序技術,可以獲得動植物的全基因組序列,帶動這個物種下遊一系列研究的開展,從而推進該物種的研究。全基因組序列圖譜完成後,可以構建該物種的基因組數據庫,為該物種的後基因組學研究搭建一個高效的平台,為後續的基因挖掘、功能驗證提供 DNA 序列信息。


産品優勢

測序通量高:10台Sequel測序儀保證超高測序通量,可實現快速交付;

測序質量好:每種測序平台均執行嚴格質控,保證測序質量優于行業标準;

平台多樣化:PacBio/ HiSeq /BioNano/10X/Hi-C 多種平台完美搭配,提供最佳組合方案,達到最佳組裝指标;

應用範圍廣:基因組圖譜的完成為後續基因挖掘、物種起源及進化等研究提供大量數據支撐。

項目經驗足:分析人員從業時間久、資曆深、經驗豐富,精通基因組産品相關的各種分析,為項目的順利交付保駕護航;

結果産出高:華大基因已經成功完成1000多個物種的全基因組從頭測序,合作發表頂級期刊文章146篇,均為全球之最;


産品應用

獲得物種的參考序列

研究物種起源與進化曆史

挖掘功能基因

搭建物種數據庫


研究内容

基因組Survey:

1. K-mer分析以及基因組大小估算

2. 雜合率估算

3. 初步組裝

4. GC-Depth分布分析

基因組組裝:

1. 組裝

2. GC-Depth分布分析

3. GC含量分布分析

4. 測序深度分析

5. 常染色體區域覆蓋度評估(需要客戶提供BAC或者Fosmid序列)

6. 基因區覆蓋度評估(需要客戶提供EST或者轉錄組序列)

基因組注釋:

1. repeat注釋

2. 基因預測

3. 基因功能注釋

4. ncRNA 注釋

進化分析:

1. 基因聚類分析(也叫基因家族鑒定,動物TreeFam;植物OrthoMCL)

2. 物種系統發育樹構建

3. 物種分歧時間估算(需要标定時間信息)

4. 基因組共線性分析

5. 全基因組複制分析(動物WGAC;植物WGD)

定制化信息分析

可結合客戶的需求,協商确定定制化信息分析内容。


項目執行周期

标準執行周期 40-120個工作日,與項目的内容和基因組的複雜度有關。


案例一:基于全基因組測序探究中國種茶樹基因組和品質相關基因的進化機制(2018)

          茶樹屬于自交不親和且高雜合多年生木本植物,基因組組裝難度極高。本研究選擇雜合度相對低的品種“舒茶早”進行基因組組裝。

1. 茶樹基因組組裝結果

       利用二代測序、PacBio三代測序約125.4G輔助組裝,最終組裝獲得3.1Gb的基因組。利用BAC文庫測序數據、其他的DNA序列和ESTs序列對組裝的準确度和完整性進行評估,同時與已報道的大葉種基因組進行了比較分析。BACs評估發現CSS基因組覆蓋度達到了98.3%而CSA隻有84.6%。同時BUSCO保守核心真核基因評估結果顯示CSS僅缺失6(2%)個的保守基因,而CSA缺失16(5.2%)個保守基因。來源于GeneBank的茶樹EST序列評估結果顯示CSS覆蓋度為93%,而CSA為89%。CSS組裝獲得的基因組64%為重複序列,注釋獲得33,932高可信度基因models。(見表1)

表1 基因組組裝、注釋及比較分析

表1

2.茶樹基因組進化研究

       在茶的兩個變種CSS和CSA間進行共線性分析,檢測到121個共線block,1,543共線基因。研究發現CSA和CSS在38到154萬年前由共同祖先發生進化分歧。兩者間DNA和蛋白直系同源基因的平均序列相似性為92.4%和93.9%。CSS與其他10個植物基因組比較基因組學分析,茶基因組中檢測到15,224候選基因家族,其中429個是茶特有的。茶特有基因家族屬于細胞色素P450、NB-ARC和TFs。 開花植物在進化曆史中往往會存在全基因複制事件(WGD),并且這些基因與農藝或植物特異性性狀相關。将>32,000基因models比對回葡萄的基因models,檢測到2706個葡萄-茶共線性基因blocks,包含>15894茶基因。基因共線性分析發現茶在曆史進程中發生了兩次WGD,分别發生在90-100Mya和30-40Mya。 (見圖1)

 圖1

圖1 兩個茶樹品種共線性分析及進化分析

3.與茶滋味相關的次生代謝物

       茶富含約700種活性化合物,這些活性物質不僅使得茶具有豐富的滋味,也是茶重要保健功能的主要原因。其中特征性成分為兒茶素、茶氨酸、咖啡堿和揮發物。兒茶素作為類黃酮的主要成分,約占茶葉幹重的12-24%。茶中的兒茶素類物質包括兒茶素(Catechin,C),表兒茶素 (Epicatechin,EC),沒食子兒茶素 (Gallocatechin,GC),表沒食子兒茶素 Epigallocatechin,EGC),表兒茶素沒食子酸酯(Epicatechin-3-gallate,ECG),表沒食子兒茶素沒食子酸酯 (Epigallocatechin-3-gallate,EGCG)。其中EGCG 是兒茶素中最重要的活性物質,綠茶中富含EGCG,黑茶中兒茶素是茶黃素和茶紅素的聚合物,通過發酵導緻兒茶素氧化。 本文揭示了茶樹的全基因組複制事件對兒茶素通路起着重要的作用,其中一個重要的基因家族是酰基轉移酶基因家族(SCPL1A),茶樹中22個SCPL1A基因中有4個是由于全基因複制事件産生(約3000-4000萬年前),另外有14個是近期物種特異的串聯重複産生。轉錄組和代謝組相關性分析結果表明16個茶樹特異的SCPL基因跟EGCG和ECG高度相關(p<0.05)。 (見圖2)


圖2

圖2.茶樹及6個其他物種SCPL1A基因的進化。A. 茶,猕猴桃,咖啡,可可,拟南芥,白楊和葡萄中SCPL1A基因的進化樹。B. 茶樹的22個SCPL1A基因在不同器官中的表達模式。

      對來自茶樹不同器官的轉錄組數據進行分析,結果表明兒茶素通路的關鍵基因受到多元調控,比如一些跟生物和非生物脅迫相關的轉錄因子,如WRKY、C2H2、C3H、NAC和ERF等跟兒茶素通路基因有較強相關性。(見圖3) 圖3

圖3 兒茶素通路關鍵基因的進化及表達模式。A. 兒茶素生物合成途徑。B. 兒茶素合成關鍵基因在不同組織中表達譜及其與不同兒茶素含量的相關關系。C. 兒茶素合成基因的轉錄調控。

          茶樹中茶氨酸占所有遊離氨基酸的比例超過50%,在茶樹幹葉中占1-2%。但茶樹中合成茶氨酸的關鍵酶基因至今未被完全證實。本研究發現并驗證了一個參與茶氨酸合成的關鍵酶——茶氨酸合成酶基因(CsTSI),該基因跟假單胞菌中被廣泛設計用于合成茶氨酸的PtGS基因高度同源。進一步的組織表達譜跟成分的相關性分析顯示該基因跟茶氨酸成分高度相關(P < 0.001)。該結果也經拟南芥過表達實驗進一步确認。 (見圖4)

       圖4

圖4. 茶氨酸合成通路的關鍵基因。A. 茶氨酸生物合成途徑和關鍵基因在乙胺處理實驗中的表達情況。B. 茶樹TS、GS基因及來源于原核、真核和植物GS基因的系統進化樹。C. 茶樹TS基因在拟南芥幼苗中的合成活性分析。

       兒茶素會使茶呈澀感,非蛋白氨基酸茶氨酸則使茶呈甘甜感,使人精神放松,對神經起保護作用。此外,茶樹也能合成揮發性萜類化合物。它們的水解産物及制茶過程中釋放的脂類和類胡蘿蔔素氧化産物,讓不同種類的茶呈不同的風味。這些發現首次從基因組層面系統解開了茶葉中富含獨特的風味物質之謎。


參考文獻:

Wei C, Yang H, Wang S, et al. Draft genome sequence of Camellia sinensis, var. sinensis, provides insights into the evolution of the tea genome and tea quality[J]. Proc Natl Acad Sci U S A, 2018.


1. 基因家族鑒定

      用treefam的方法定義基因家族,基因家族是由來至一個祖先基因的一組基因組成。


1-1

圖1:A圖表示不同物種間直系同源基因的種類及數量; B圖表示不同物種間直系同源基因的種類及數量韋恩圖;


2. 物種系統發育樹構建

      利用直系同源基因的四重兼并位點構建系統發育樹;每個分支長度代表中性進化速率;樹枝上的數字代表dN/dS。而dN/dS 可以反映出物種所受到的純化選擇壓力的大小。

1-2

圖2:系統發育樹


3. 物種分歧時間估算

       分化時間和替換速率的估算。人和狗的分化年代來至TimeTree database (http://tbnlo.zhongte47199.cn),用來作為校正的時間。

1-3

圖3:綠色的數字代表替換速率,單位是每個位點每年;藍色的數字表示估算出來的分化年代,單位是百萬年。


4. 基因組共線性分析

       全基因組比對結果是比較基因組分析中的一個重要基礎,它一般用于識别基因組中的功能元件。例如,通過基因組的多序列比對結果得到的多個遠緣物種的同源序列一般暗示着這些序列是保守的,具有一定的生物特性。

1-4

圖4:基因組共線性分析


5. 全基因組複制分析

      全基因組SD分布,由circos軟件生成。

1-5

圖5:全基因組SD分布圖


測序平台

文庫類型

樣品類型

樣品濃度

樣本量

HiSeq

270/500/800bp

基因組DNA

20ng/ul

1.5ug

2-3Kb

110ng/ul

4ug

5-6Kb

110ng/ul

4ug

8-10Kb

110ng/ul

4ug

PacBio

20Kb

20ng/ul

10ug

BioNano

——

gDNA Agarose Plug (250Kb)/ 組織樣本

——

4-6ug/Plug

 

10X Genomics

——

基因組DNA(主帶大于 100kbp,最小值 大于 50kb)

20ng/ul

500ng

Hi-C

——

完成甲醛交聯的DNA/新鮮血液/活體組織

——

——

注:組織樣本需求量依據不同物種及組織樣本類型而不同,如有需要請咨詢當地銷售


Q:怎麼查詢基因組的大小?

A: 查詢植物基因組大小的網站:http://data.kew.org/cvalues/CvalServlet?querytype=2;

查詢動物基因組大小的網站:http://www.genomesize.com/search.php。

換算關系:1pg=978Mb。


Q: 基因組從頭測序的組裝結果好壞如何判斷?

A: 一般用contig N50和scaffold N50 來衡量基因組組裝結果的好壞。N50是指把組裝出的contigs或scaffolds從大到小排列,當其累計長度剛剛超過全部組裝序列總長度50%時,最後一個contig或scaffold的大小即為N50的大小,N50對評價組裝序列的連續性、完整性有重要意義;N70和N90的計算方法與N50類似,隻是百分數變為70%或90%。


Q: PacBio 測序的優勢是什麼?

A: 最大的優勢是測序讀長長,平均讀長在12K以上,且無GC偏向性;對基因組的組裝、大的結構變異檢測、轉錄組全長測序結果均有極大提升。


Q: BioNano 項目對物種有限制嗎?哪些物種可以做呢?

A: BioNano 項目隻能針對已有初步組裝結果的物種來進行輔助組裝,因此每個項目進行之前需要對已有的組裝序列進行前期信息分析評估并尋找合适的酶。基因組初步組裝結果要求不能太碎,大于100kb的scaffold序列要占大部分,N的含量不能太高,基因組雜合率高的話,輔助組裝時也有一定的影響;酶的選擇是利用軟件Label Density Calculator模拟酶切初步組裝結果,計算Label Density,範圍在8-15/100kb即可。評估合格的物種可以進行BioNano測序。



深圳華大科技(總部)

電話:400-706-6615
郵箱:info@genomics.cn