一 引言
1.1編寫目的
進行該測試以及撰寫此報告有以下幾個目的:
1) 通過使用Trinity軟件,進行不同組裝策略的轉錄組組裝測試,得到組裝效果最好的組裝策略;
2) Trinity組裝所需時間,內存及存儲峰值評估;
1.2背景
由于第二代測序測序讀長短、質量值偏低、數據量大。目前轉錄組組裝面臨的問題主要有:1)轉錄本覆蓋度不均勻,一些轉錄本覆蓋度很低,一些則會跟高;2)由于序列本身的偏向性,轉錄本內reads覆蓋度存在不一致的可能;3)與一個測序正確但低表達的轉錄本相比,一個有測序錯誤但高表達的轉錄本,其表達豐度可能更高;4)由于可變剪切,構建數據結構需考慮到一個基因有多個轉錄本的可能;5)來自不同基因的重復序列可能給組裝帶來歧義。
本次工作的目的在于通過不同組裝策略的測試,以得到一種最優的組裝方案。組裝策略主要有以下幾種:
1) 6個樣品單獨組裝,然后將組裝結果進行聚類;
2) 6個樣品數據放在一起組裝;
3) 6個樣品提取高質量數據,進行組裝,低質量數據,進行組裝;然后聯合組裝;
4) 使用Genome-guided參數與不使用該參數
1.3用戶群
主要讀者:公司研發部,公司管理人員。
其他讀者:項目及銷售相關人員。
1.4 數據對象
物種 |
數據類型 |
樣品個數 |
測序類型 |
水稻 |
mRNA |
6個 |
PE90 |
1.5 測試階段
軟件測試
1.6測試工具
1) Perl;
2) Trinity
1.7 參考資料
1) Brian J Haas, Alexie Papanicolaou, Moran Yassour V, et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis, 11 July 2013; doi:10.1038.
2) Geo Pertea, Xiaoqiu Huang , et al. TIGR Gene Indices clustering tools (TGICL): a software system for fast clustering of large EST datasets, Vol. 19 no. 5 2003,
二 .測試概要
關于此項測試工作從2014年4月10日開始預計到2014年5月30日結束。
2.1 主要測試內容如下:
1) Trinity安裝以及測試;
2) 測試數據獲取及處理;
3) 編寫任務腳本及任務提交;
4) TCICL安裝以及測試;
5) 組裝結果質量評估及統計;
6) 不同組裝方法結果比較;
7) 編寫結果報告
2.2 測試詳細思路描述:
1) 6個樣品單獨組裝;
2) 6個樣品組裝結果,使用TGICL進行聚類,組裝成UniGene;
3) 6個樣品各取約2.5G數據,合起來共約16G數據組裝,(因6個樣品所有數據24G,數據量太大,trinity跑不通);
4) 取一個樣品使用Genome-guided 參數,用有參考序列的組裝方式進行組裝;
5) 比較使用一個樣品(4G數據),與使用6個樣品(16G數據)的組裝結果差異
6) 比較使用6個樣品單獨組裝,然后聚類成的UniGene,與6個樣品數據合起來(16G數據)組裝結果差異
7) 比較使用Genome-guided 參數,和不使用Genome-guided 參數結果差異
2.3工作計劃進展
測試內容 |
計劃開始時間 |
實際開始時間 |
計劃完成時間 |
實際完成時間 |
工作完成情況 |
軟件安裝以及測試 |
2014年4月10日 |
2014年4月10日 |
2014年4月10日 |
已完成 |
|
測試數據獲取及前期處理 |
2014年4月10日 |
2014年4月18日 |
2014年4月14日 |
2014年4月18日 |
已完成 |
編寫任務腳本及任務提交 |
2014年4月20日 |
2014年4月19日 |
2014年4月28日 |
2014年5月4日 |
已完成 |
TCICL安裝以及測試 |
2014年4月21日 |
2014年4月28日 |
2014年4月29日 |
2014年5月15日 |
完成 |
組裝結果質量評估及統計 |
2014年4月29日 |
2014年5月16日 |
2014年5月15日 |
2014年5月20日 |
完成 |
不同組裝方法結果比較 |
2014年5月17日 |
2014年5月20日 |
2014年5月21日 |
2014年5月21日 |
完成 |
編寫結果報告 |
2014年5月21日 |
2014年5月21日 |
2014年5月22日 |
2014年5月22日 |
完成 |
2.2測試執行
此次測試嚴格按照項目計劃和測試計劃執行,按時完成了測試計劃規定的測試對象的測試。針對測試計劃制定規定的測試策略,依據測試計劃和測試用例,將網絡數據以及我們觀測的關鍵參數進行了完整的測試。
2.3測試用例
2.3.1功能性
1) 1.測試Trinity軟件,可以正常運行。
2) 2.測試TGICL軟件,可以正常運行
3) 3.評估不同組裝策略組裝質量狀況。
三 測試環境
3.1軟硬件環境
硬件環境 |
服務器 |
硬件配置 |
CPU:Intel Xeon 2.66GHz *20 Memory:90GB HD:29TB |
軟件配置 |
OS:Fedora release 14,Ubuntu 12.10 Trinity |
網絡環境 |
20M LAN |
四 測試結果
使用不同方法組裝統計結果見如下表格:
物種 |
水稻 |
|||||||||
組裝策略 |
直接組裝 |
直接組裝 |
直接組裝 |
直接組裝 |
直接組裝 |
直接組裝 |
6個樣品部分數據合并組裝 |
3個樣品單獨組裝后,再聚類 |
4個樣品單獨組裝后,再聚類 |
5個樣品單獨組裝后,再聚類 |
數據量 |
4G |
4G |
4G |
4G |
4G |
4G |
16G |
12G |
16G |
20G |
樣品名稱 |
CQ9522_2mm_1A |
CQ9522_2mm_2A |
CQ9522_4mm_1A |
CQ9522_4mm_2A |
CQ9522_6mm_1A |
eg1D34_1A |
Sample6All |
Sample3Culster |
Sample4Culster |
Sample5Culster |
Total sequences |
45444 |
45345 |
47746 |
47915 |
48173 |
48561 |
283184 |
53007 |
58131 |
62566 |
Total bases |
42320514 |
42218957 |
44463230 |
44589916 |
44968574 |
45256330 |
263817521 |
52432158 |
59334530 |
65271000 |
Min sequence length |
201 |
201 |
201 |
201 |
201 |
201 |
201 |
201 |
201 |
201 |
Max sequence length |
13797 |
13797 |
12820 |
14676 |
14693 |
13288 |
14693 |
13797 |
15307 |
15307 |
Average sequence length |
931.27 |
931.06 |
931.25 |
930.6 |
933.48 |
931.95 |
931.61 |
989.16 |
1020.7 |
1043.23 |
Median sequence length |
583 |
582 |
601 |
582 |
580 |
601 |
587 |
627 |
642 |
657 |
N25 length |
2398 |
2398 |
2331 |
2414 |
2415 |
2320 |
2379 |
2545 |
2654 |
2723 |
N50 length |
1504 |
1503 |
1483 |
1498 |
1520 |
1474 |
1496 |
1612 |
1681 |
1732 |
N75 length |
773 |
773 |
788 |
770 |
782 |
780 |
778 |
867 |
910 |
946 |
N90 length |
375 |
375 |
378 |
375 |
375 |
381 |
376 |
398 |
409 |
420 |
N95 length |
282 |
282 |
284 |
285 |
282 |
289 |
284 |
286 |
289 |
290 |
querygene number |
39461 |
39376 |
40564 |
40759 |
40673 |
41318 |
109371 |
44589 |
48253 |
51281 |
subjectgene number |
41754 |
41609 |
41338 |
41977 |
41652 |
41396 |
46500 |
43770 |
44768 |
45443 |
gene region alignment percentage |
61.11% |
61.17% |
61.97% |
62.81% |
62.49% |
62.49% |
67.13% |
62.73% |
64.21% |
64.33% |
組裝reads使用率 |
91.76% |
90.79% |
91.36% |
91.45% |
90.11% |
91.42% |
94.43% |
92.69% |
93.28% |
93.72% |
存儲峰值 |
35G |
35G |
35G |
35G |
35G |
35G |
200G |
80G |
80G |
80G |
內存峰值 |
38G |
38G |
38G |
38G |
38G |
38G |
90G |
78G |
78G |
78G |
運行時間(小時) |
3 |
3 |
3 |
3 |
3 |
3 |
18 |
3+1 |
3+1.2 |
3+1.5 |
4.1 軟件安裝
1) 安裝新版2014年4月新版Trinity( trinityrnaseq_r20140413.tar.bz);
2) 安裝perl 模塊PerlIO-gzip-0.18.tar.gz;
3) 安裝TGICL(TGICL-2.1.tar.gz) ;
4) 安裝CD-HIT;
5) 安裝GMAP and GSNAP(gmap-gsnap-2014-04-20.tar.gz );
五.測試結論與討論
從上述統計結果可以看出
1) 對于Contigs N50:樣品單獨組裝與合并clean data數據后組裝的N50差不多,樣品單獨組裝后合并略有提升。
2) Contigs數量:樣品單獨組裝后合并contigs數量比單個樣品組裝contigs數量稍多,合并并clean data數據后組裝contigs數量明顯增多(但是,數量太多)
3) Reads 使用率:合并clean data數據后組裝、樣品單獨組裝后合并 reads使用率略高于單個樣品組裝
4) 基因區域覆蓋度:合并clean data數據后組裝、樣品單獨組裝后合并 reads使用率略高于單個樣品組裝
5) 另外:
6) Genome-guided 模式沒有測通,故不在此次比較范圍內;
7) 6個樣品單獨組裝后聚類,TGICL沒有跑通,故使用了3個樣品聚類、4個樣品聚類、5個樣品聚類的結果進行比較。
8) CD-HIT是另外一種聚類軟件,2個樣品聚類可以成功運行,但是3個樣品聚類時,一直顯示任務運行但是無結果,也不報錯。
六.測試總結
根據本次測試結果,綜合考慮到內存、運行時間、組裝結果、存儲等因素,樣品單獨組裝后聚類的效果比較好。