聯(lián)系電話
- 聯(lián)系人:
- 程成
- 電話:
- 021-60348496
- 手機:
- 18121453965
- 傳真:
- 021-51632657
- 地址:
- 上海市松江加工園區(qū)
- 網址:
- www.qiyibio.com
掃一掃訪問手機商鋪
微信掃碼進入微名片
9 月 18 日,中山大學中山眼科中心謝志、肖傳樂、謝尚潛,中山大學數(shù)據(jù)科學與計算機學院陳穎,湖南農業(yè)大學羅峰等學者合作在 Nature Methods 雜志上發(fā)表了三代基因組測序數(shù)據(jù)計算方法,解決了該領域的關鍵技術難題。
本項目負責人謝志教授和主要完成人肖傳樂副研究員表示:以 PacBio 和 Oxford Nanopore 公司為代表的三代測序技術能夠產生遠遠長于二代測序技術的基因組序列讀長,很好的解決復雜基因組的組裝及結構變異等難題,為基因測序和醫(yī)學領域帶來了全新的機遇。然而三代測序數(shù)據(jù)的高錯誤率(12-15%)給數(shù)據(jù)分析了巨大的挑戰(zhàn),嚴重影響了三代測序技術的應用。為此我們提出了一種全新的基于全局投票打分的候選序列評估方法,該方法可以大幅降三代序列比對、校正和組裝的計算資源消耗,從而極大提高計算效率;并基于此方法成功開發(fā)了集序列比對、校正和組裝為一體的三代測序分析軟件 MECAT。與同類軟件相比,MECAT 在計算速度上表現(xiàn)出了明顯的優(yōu)勢,并且在單個服務器上實現(xiàn)了中國人的基因組組裝工作;為加速三代測序技術在生物和醫(yī)學的應用提供了重要的支撐。
圖 1 三代測序數(shù)據(jù)的基因組組裝時間對比
基于三代測序數(shù)據(jù)的基因組組裝中zui消耗計算時間的過程是序列局部比對。為了減少進入局部序列比對的候選區(qū)域,研究人員提出快速測量兩個序列編輯距離的序列差異因子(DDF)和全局種子投票打分的計算理論模型。該模型表現(xiàn)出了兩個序列全局種子得分與重疊長度成線性相關的重要特征,這一特征使得兩序列重疊區(qū)域的長度可以通過種子全局得分進行評估。全局種子得分模型不僅能獲取候選局部比對所需要兩序列準確起始比對位置,而且實現(xiàn)了非局部序列比對的兩兩序列比對過程,從而大幅節(jié)約了三代測序兩兩比對的計算時間。目前,MECAT 在人類基因組數(shù)據(jù)中的長序列兩兩(pairwise)比對時間比目前領域的主流軟件(MHAP 和 Daligner)快至少 17 倍。由于兩兩比對計算時間隨著測序數(shù)據(jù)量增加成指數(shù)增長,因此對于大測序數(shù)據(jù)集 MECAT 中兩兩比對方法的加速比將更加顯著。同時,通過優(yōu)選幾個zui高得分候選區(qū)域大幅降低進入局部序列比對候選區(qū)域的數(shù)量,也實現(xiàn)了參考基因組比對過程中大幅節(jié)約計算時間的效果,在人的參考基因組比對中,MECAT 的速度是目前同類軟件(BLASR 和 BWA)的 5 -20 倍。
三代測序錯誤序列校正是基因組組裝另一耗時步驟,MECAT 通過優(yōu)選zui高得分的候選匹配序列進行局部序列比對,從而大幅降低進入局部序列比對過程的候選序列數(shù)量,因此大幅提高三代測序的序列校正時間。MECAT 中序列校正速度是目前軟件的 7 - 8 倍?;蚪M組裝通常尋找序列重疊長度zui長路徑作為組裝序列延伸路徑,因此,根據(jù) MECAT 全局種子投票得分與兩序列重疊長度線性相關這一重要特征,可以通過全局得分對每個序列優(yōu)選 100 個候選序列作為該序列候選延伸序列,從而避免了如傳統(tǒng) BLAST 方法中每個序列尋找所有重疊序列的序列比對計算時間。目前,MECAT 在人類基因組的組裝速度是同類軟件的 17-23 倍,MECAT 能夠在單臺服務器上用 7 - 8 天完成人類基因組組裝。
由于 MECAT 計算資源消耗顯著低于目前序列比對、校正和組裝軟件,同時提高了算法的精度和組裝的效果,因此 MECAT 實現(xiàn)了用二代測序相近的時間組裝三代測序基因組,為加速測序技術的廣泛應用提供重要推力。