logo

logo

産品服務

Sequencing services

  • 首頁全外顯子測序

全外顯子測序

       全外顯子測序 (Whole-exome sequencing,WES)是應用頻率最高的基因組測序方法。外顯子是人基因組的蛋白編碼區域,利用序列捕獲技術可以将其DNA捕獲并且富集。雖然外顯子區域僅占全基因組1%左右[1],卻包含了85%的緻病突變[2]。相比全基因組測序,全外顯子測序更加經濟、高效。外顯子組測序主要用于識别和研究與疾病、種群進化相關的編碼區及UTR區域内的變異。結合大量的公共數據庫提供的外顯子數據,有利于更好地解釋所得變異與疾病的關系。

技術優勢

  1. 直接對蛋白編碼序列進行測序,找出影響蛋白結構的變異
  2. 高深度測序,可發現變異頻率低于1%的罕見變異
  3. 僅針對外顯子組區域,有效降低測序費用、存儲空間和工作量

産品應用

      相比于全基因組測序,外顯子區域占比小(約1%),因此更容易做到更高深度測序,檢測到更多低頻和罕見變異,同時也能降低測序費用和存儲空間。外顯子測序,50M的捕獲區域,測序數據量10-12Gb就可以得到100X的有效測序深度。這個特性決定了外顯子測序在遺傳性疾病和腫瘤研究中的重要作用,特别是做腫瘤異質性研究。由于腫瘤異質性,腫瘤内部有很多亞克隆,有些亞克隆的占比很低,應用外顯子高深度測序可以更快、更經濟地檢測出普通測序深度難以發現的體細胞突變。

WES産品應用

圖1 外顯子測序産品應用

       華大基因采用Agilent等液相捕獲系統,對人的全外顯子組區域的DNA進行高效捕獲富集,然後提供BGISEQ-500和Illumina兩種高通量測序平台服務。建庫和雜交實驗采用官方指定試劑盒,嚴格使用說明書推薦的試劑和耗材,并參照最新的經過優化的實驗流程進行操作。如下為BGISEQ-500 外顯子測序技術流程

BGISEQ-500WES建庫流程

圖2 BGISEQ-500平台外顯子建庫流程

測序原理

       BGISEQ-500是華大基因自主研發的首款桌面型高通量測序系統,采用先進的聯合探針錨定聚合技術(cPAS)和改進的DNA納米球(DNB)核心測序技術,提供一站式、開放性的基因測序全面解決方案,具備精準、簡易、快速、靈活、可拓展等優點,既能充分适用臨床檢測,也能滿足更廣泛的科研需求。BGISEQ-500測序平台産品的外顯子數據均一性好、單個堿基質量值高。一次測序可以産出90G以上的數據,可滿足多個樣品同時測序。該平台有五大關鍵的技術:DNB、Pattern array、cPAS、MDA-PE、sCMOS,保證了該平台測序的準确性。

BGISEQ-500平台優勢


圖3 BGISEQ-500平台優勢

        首先,單鍊環狀 DNA 分子通過滾環複制,線性擴增2-3個數量級,增強信号。所産生的擴增産物稱為DNA納米球(DNA nanoball, DNB),采用高密度DNA納米芯片技術,将得到的DNBs加到芯片上的網狀小孔内(固定在陣列化的矽芯片上)。通過聯合探針錨定聚合技術(cPAS)和多重置換擴增的雙末端測序法(MDA-PE)得到讀長為100bp的PE 序列。

納米球示意圖

圖4 DNA 納米球示意圖

       MDA-PE的具體原理是:完成第一鍊(Forward Strand)測序後,在具備鍊置換功能的高保真聚合酶的作用下,合成第二鍊(Reverse Strand),并通過DNA分子錨,進行第二鍊的測序。MDA-PE法具有合成快、準确度高等優點。與其他二代測序技術相比較,DNB測序技術具有以下幾個優勢:

  •  DNB通過增加待測DNA的拷貝數而增強了信号強度,從而提高測序準确度。
  • 不同于PCR指數擴增,滾環擴增技術的擴增錯誤不會累積。
  • DNB與芯片上的網狀小孔大小相同,每個小孔隻固定一個DNB,保證信号點之間不産生相互幹擾。
  • 陣列化測序芯片和DNB測序技術的結合,使得成像系統像素和測序芯片的面積得到最大化利用。

信息分析

       信息分析從測序的下機數據(raw data)開始,原始下機數據過濾掉接頭、低質量堿基、未測出的堿基(以 N 表示)後比對到參考基因組上,進行SNP檢測和InDel或者CNV分析,然後通過數據庫注釋,對變異檢測的結果通過基于變異有害性、樣本情況和基因功能表型三種分析策略,篩選出于疾病相關的有害性位點或基因。另外, 為了保證高質量的測序數據,在整個分析流程中設置了嚴格的數據質控體系(QC)。

疾病分析内容

圖5 疾病信息分析内容

       外顯子測序主要适用于腫瘤易感性、緻病機理、癌症異質性、轉移和複發以及藥物療效研究。其中癌症異質性需要高深度測序,建議200X以上有效深度,FFPE樣品建議200-300X對應的數據量,需要盡量全面、準确地檢測腫瘤組織發生的所有突變信息,所以測序深度需要盡可能高,以檢測低豐度突變位點。ctDNA建議500X及以上有效測序深度,用于檢測Somatic 突變以及頻率來判斷ctDNA的存在和水平,從而反應腫瘤負荷等信息。

腫瘤分析内容

圖6 腫瘤信息分析内容

産品優勢

  1. 捕獲平台:Agilent v6芯片和自主芯片多種選擇
  2. 測序平台:單鍊滾環複制,更少PCR擴增錯誤引入
  3. 測序質量:承諾Q20>90%,Q30>80%
  4. 數據格式:标準fq下機格式,适合所有軟件和數據庫,數據兼容性零擔憂
  5. 項目周期:從樣品到數據交付低至13天
  6. 項目經驗:發表國内第一篇外顯子測序文章,項目經驗8年+,平台穩定
  7. 廣泛合作:大學、醫院、科研院所、制藥公司合作超過4000次,樣品總數14萬+


參考文獻

1. Ng SB1, Turner EH., et al. Targeted capture and massively parallel sequencing of 12 human exomes. Nature.461(7261):272-6.

2. Choi M1,Scholl UI., et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing.Proc Natl Acad Sci USA. 106(45):19096-101.










案例1 全外顯子測序在單基因遺傳性疾病中的應用

LIMA1 variant promotes low plasma LDL cholesterol and decreases intestinal cholesterol absorption(Science

案例描述:心血管疾病(CVD)是世界範圍内的一類重要的緻死疾病,其中血液中高濃度的低密度脂蛋白膽固醇(low-density lipoprotein cholesterol, LDL-C)是它的一個主要危險因素之一。LDL-C如果濃度過高,會沉積在動脈壁中,形成斑塊,造成血管堵塞,從而引發心血管疾病。該文章選用的是家系樣本。對三個LDL-C低濃度個體和一個正常個體進行全外顯子測序,過濾後,隻剩LDL-C個體的突變位點,接着通過過濾同義突變、dbSNP數據庫、SIFT分值高而POLYPhen V2和Mutation Taster分值低的突變位點。經全外顯子測序以及一代測序驗證最終發現了一個未知突變LIMA1-K306fs。後對1000多個哈薩克族個體全基因組的LIMA1基因片段進行靶向測序,發現另外3個家系的LIMA1基因中含有L25I突變(LIMA1-L25I (Leu→Ile))。

1

圖1,3個中國哈薩克族低水平LDL-C家族LIMA1-L25I突變鑒定示意圖

參考文獻:Zhang Y Y, Fu Z Y, Wei J, et al. A LIMA1 variant promotes low plasma LDL cholesterol and decreases intestinal cholesterol absorption[J]. Science, 2018, 360(6393): 1087-1092.


案例2 前列腺癌緻癌基因的長尾效應分析

The long tail of oncogenic drivers in prostate cancer(Nature genetics

案例描述:前列腺癌的深度基因組學分析已經鑒定出一些複發性相關的變異基因,這些基因參與雄激素信号傳導,比如DNA修複和PI3K信号傳導等基因。然而,更大規模的基因組學分析可以鑒定出一些其他低頻的反複突變基因。在這篇文章中,研究人員彙總并統一分析來自1,013個前列腺癌的外顯子組測序數據。鑒定和驗證了一類新的由表觀遺傳調節因子中的突變所定義的E26轉化特異性(E26 transformation-specific,ETS)-融合陰性腫瘤,以及在之前的前列腺癌研究中未涉及到的途徑中的變異,如剪接體途徑。同時作者還發現顯著突變基因(significantly mutated genes, SMG)的突變率遵循長尾分布,許多基因的突變率不到3%。作者總共确定了97個SMG,包括70個在之前的研究中未報道的前列腺癌SMG,例如泛素連接酶CUL3和轉錄因子SPEN。最後,通過比較原發性和轉移性前列腺癌中的突變位點信息,鑒定出一組可以預測前列腺癌危險分層的基因組标記。

2

圖2,1013個前列腺癌的突變顯著基因

參考文獻:Armenia J, Wankowicz S A M, Liu D, et al. The long tail of oncogenic drivers in prostate cancer[J]. Nature genetics, 2018, 50(5): 645.


案例3 發現與糖尿病相關的罕見DNA突變

Exome sequencing of 20,791 cases of type 2 diabetes and 24,440 controls(Nature

案例描述:目前,全基因組關聯分析 (GWAS)是尋找疾病相關變異非常流行的一種方法。這種方法可以非常有效地在整個基因組中發現常見的疾病變異,但缺點是可能會漏掉不太常見的外顯子變異。這項研究以外顯子測序為手段,分析了近5萬人(40X)的蛋白質編碼基因,鑒定出與2型糖尿病相關的新型罕見變異。這一發現或有助于改進對2型糖尿病的特征鑒别和治療。通過外顯子組關聯分析找出7個位點上15個變體表現出顯著關聯,其中2個是過去GWAS沒有發現的新變異。在基因級别上,有3個基因達到顯著關聯。

3

圖3,外顯子組測序與基于陣列的GWAS的比較

參考文獻:Jason Flannick et al., (2019) Exome sequencing of 20,791 cases of type 2 diabetes and 24,440 controls. Nature. DOI: 10.1038/s41586-019-1231-2


以下是BGISEQ-500外顯子測序數據的結果展示。

其中标準品為“瓶中基因組(Genome in a Bottle)”的人類樣本NA12878,這是目前被世界上認為研究最透徹的二倍體人類基因組,并發布了高置信變異集,可作為一個重要工具來了解測序儀和檢測結果的表現。

下機數據質量高

下圖為堿基分布平衡情況。從圖中我們可以看到堿基分布平衡性好,N序列也很少。

BGISEQ-500 外顯子堿基分布

圖1 BGISEQ-500 外顯子堿基分布

Q值反映平台的測序準确性。下圖共統計了144個最新的商業樣品的數據,其中Q20平均97%,Q30平均89%。數據質量非常高。

500WES下機數據質量值

圖2 BGISEQ-500 外顯子下機數據質量

比對率高,覆蓋度均一

國際标準品NA12878和商業樣品的數據同時顯示BGISEQ-500平台外顯子捕獲特異性(Capture specificity)好、PCR-duplication低、覆蓋很均一。如上表顯示,平均測序深度120X時,20X以上的覆蓋度>97%。

表1 BGISEQ-500 外顯子比對統計情況

BGISEQ-500 外顯子比對統計情況

測序重複性高

150X有效深度時,BGISEQ-50測序平台的SNP的一緻性>98%,InDel的一緻性>81%。BGISEQ-500平台外顯子測序結果的重複性表現非常好,表明該平台測序結果穩定、可靠。

 BGISEQ-500 外顯子重複性分析

圖3 BGISEQ-500 外顯子重複性分析

SNP檢測準确性和靈敏性高

對NA12878使用GIAB公布的标準集進行精确度和靈敏度的評估,發現在高置信變異區間,BISEQ-500靈敏度與H測序平台表現相當,甚至優于後者。目标區域内,BGISEQ-500的SNP精确度表現更好。

BGISEQ WES SNP精确度和靈敏度

圖4 BGISEQ-500 外顯子SNP檢測的精确度和靈敏度表現

與其他平台一緻性高

BGISEQ-500平台和H平台一緻性和特異性比較結果。從圖14我們可以清晰地看到,兩個平台的SNP一緻性高達96%,SNP特異性部分,BGISEQ-500 在PE100讀長時,無論是目标區域範圍還是标準集的高置信區域,BGISEQ-500都表現出更好的結果,精确度分别為33.68%和96.77% (H平台為25%和38%)。兩個測序平台的InDel一緻性高達77%,InDel特異性表現和SNP一樣,也是BGISEQ-500更優。

BGISEQ-500和H平台共有和特異

圖5 BGISEQ-500 外顯子特異性分析


BGISEQ-500外顯子送樣建議

DNA樣品

組織樣品

組織樣品保存和運輸指南

無蛋白污染;

RNA/鹽離子污染;

樣品無色透明不粘稠的DNA

1.      樣品總量≥1μg

2.      樣品濃度≥12.5ng/μL

3.      完整性:主峰>20Kb

新鮮培養的細胞:細胞數≥5×106cell

液氮速凍法:離心後液氮速凍,-80°保存,幹冰寄送

新鮮動物組織幹重 :≥50mg

1.      液氮速凍法:分割成50mg小塊後,液氮速凍,放入幹淨的帶螺紋旋蓋的保存管中。-80°保存,幹冰寄送。

2.      商業核酸保護液保護法:嚴格按照說明書操作,組織厚度保持在5mm左右,活體組織離體後建議3分鐘内液氮速凍。

全血(哺乳動物):≥1 mL

EDTA抗凝管采集。新鮮采集的用移液器轉移至2ml的離心管,足量冰袋或者幹冰寄送;冷凍血液,幹冰寄送。

唾液:≥1mL

商業核酸保護液保護法: 推薦DNA Genotek公司的Oragene.DISCOVER(OGR-500)(For Research)Oragene.Dx(OGR-500)(For Diagnostics) collecton kit

FFPE :≥ 10 片,未染色,100 mm25 ~ 10μm厚度

要求有核細胞數量80%以上,腫瘤細胞含量70%以上,常溫保存寄送。

HiSeq或Nova測序平台送樣建議

當DNA總量<1μg,可以嘗試微量建庫測序,存在一定風險,請客戶謹慎選擇。微量建庫時:①常規DNA樣品(非FFPE樣品)需同時滿足總量≥200ng,濃度c≥2.5 ng/μL,無降解或輕微降解;如果建庫采用Agilent sureselect QXT試劑盒,則要求DNA總量≥50ng,濃度≥25ng/μL。②FFPE DNA樣品微量建庫的風險要高于非FFPE DNA樣品。FFPE DNA需同時滿足≥200ng,濃度c≥2.5 ng/μL,主帶至少要大于500bp等條件。

Hiseq送樣建議



Q1:滾環擴增技術的特點是什麼?

滾環擴增技術RCA的模闆始終是同段序列,擴增錯誤不會累積,與H平台的PCR指數擴增相比有保真優勢。

Q2:外顯子測序的優點是什麼?

答:外顯子測序是全基因重測序的一個較為經濟的替代手段,對研究基因的SNP、Indel等具有較大的優勢。人的全基因組約3G,外顯子占人全部基因序列的1%。重測序一般需要測30X,即90G數據,外顯子測序一般測50-100 X,在實現較低成本的前提下對發生突變後最有可能影響功能改變的序列進行針對性的研究,相當于抓住了主要矛盾,性價比高。

Q3:外顯子組捕獲測序中的捕獲特異性(capture specificity)及覆蓋度(coverage ratio)分别指什麼?

答:捕獲特異性(capture specificity)指比對到目标區域的有效數據量占總數據量的比例。捕獲效率的高低不影響數據質量,隻影響數據的有效比例。特異性越高代表所關注的目标數據的利用率也越高。覆蓋度(coverage ratio)是目标區域被覆蓋到的比率,一般外顯子的覆蓋度都可以達到95%以上;随着深度的增加,覆蓋度也會增加。

Q4:外顯子測序裡面的有效測序深度是什麼含義?

答:由于外顯子測序在建庫的時候有個雜交的過程,所以存在捕獲效率的問題。有效深度是指覆蓋到外顯子捕獲區域的總堿基數和區間大小的比值。有效測序深度和捕獲效率、捕獲區間之間有一定的聯系,即有效測序深度=比對上基因組的有效數據在去除Duplication後*捕獲效率/捕獲區間。有的公司在提供有效深度的時候沒有将PCR重複序列去除計算,且使用的是所有的數據,華大在計算有效深度的時候用的是比對到基因組、去除了重複序列後的有效數據再計算得到的數據。所以在相同的深度下,提供給客戶的有效數據會更多。

Q5:Duplication是什麼,又是如何産生的呢?

答:在基因組測序中,我們說的duplication是特指的PCR-duplication。也就是在PCR過程中産生的基因重複片段。那麼,問題來了,為什麼我們會在PCR過程中産生重複片段呢?這個問題,需要從測序的原理說起。為了确保測序效果,我們将加好接頭的DNA片段過量擴增,确保每一個孔中都能覆蓋到足夠多的片段。但是,也是因為過量擴增,同樣一個DNA片段會擴增出多份拷貝,而這些拷貝有可能也會進入到孔中被測出來。這就會導緻這個DNA位置的覆蓋度升高。所以,我們就必須要去重。



深圳華大科技(總部)

電話:400-706-6615
郵箱:info@genomics.cn