深圳子科生物報道:來自中科院計算技術研究所的研究人員發表了題為“Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine”的文章,公布了新一代開放式搜索算法Open-pFind,可提高質譜數據解析的數量與質量,有望成為蛋白質組學日常數據分析的主力工具。
這一研究成果公布在10月9日的Nature Biotechnology雜志上,文章的通訊作者為計算技術研究所賀思敏研究員,和遲浩博士(同為作者)。
質譜數據的低解析率直接影響著肽段和蛋白質鑒定數目和鑒定精度的提高。質譜數據解析率一直較低,是由于質譜數據中通常有大量存在意外修飾或發生意外酶切的肽段,傳統的限定式搜索因搜索空間有限,通常無法對上述肽段進行有效檢索。
新一代開放式搜索引擎Open-pFind采用基于序列標簽索引的開放式搜索流程,快速掃描蛋白質數據庫并對部分高質量譜圖進行鑒定。在此過程中,意外修飾、突變、半特異及非特異性酶切肽段均在引擎的搜索空間內。Open-pFind通過基于支持向量機的肽譜匹配重打分算法,挖掘數據中的特征信息,并據此進行第二次精細搜索。同時,Open-pFind集成了前端數據處理的pParse模塊,對肽段母離子進行校準,并有效提取混合譜圖,進一步提升了譜圖解析率。
在四組典型質譜數據集上,Open-pFind解析率均達到了70%~85%,比同類軟件鑒定結果多出50.5%~117.0%。對于高質量的串聯質譜圖,Open-pFind甚至基本實現了*解析。在搜索空間是常規引擎5個量級的基礎上,Open-pFind的速度仍然是常規引擎的2~3倍,是同類開放式引擎的數十倍甚至上百倍。在超大規模人類蛋白質組數據集上,Open-pFind報告了超過12000種蛋白,且準確度遠遠超過以往常規分析結果。
原文標題:
Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine