reciprocal_smallest_distance是使用全局序列比對和序列之間的最大似然進化距離準確地檢測基因組之間的同源基因成對直向算法。
安裝從壓縮包
下載並解壓最新版本github上:
CD〜
捲曲-L https://github.com/downloads/todddeluca/reciprocal_smallest_distance/reciprocal_smallest_distance-VERSION.tar.gz |焦油xvz
安裝reciprocal_smallest_distance,確保使用Python 2.7:
CD reciprocal_smallest_distance-VERSION
蟒蛇setup.py安裝
使用RSD查找Othologs
下面的例子演示的命令運行rsd_search的主要方式。 rsd_search每次調用需要指定一個FASTA格式的序列文件的位置為兩個基因組,稱為查詢和受試者的基因組。他們的順序是任意的,但如果你使用--ids選項,IDS必須來自查詢的基因組。您還必須指定一個文件寫入的RSD算法找到同源基因的結果。輸出文件的格式,每行包含一個同源。每行包含序列之間的查詢序列的id,主題序列id和距離(由codeml計算)。您可以選擇指定包含使用--ids選項IDS的文件。那麼RSD只會尋找同源基因的那些標識。使用--divergence和--evalue,你必須使用不同的閾值從默認的選項。
獲取有關如何運行rsd_search,rsd_blast或rsd_format幫助:
rsd_search -h
rsd_blast -h
rsd_format -h
查找查詢並受基因組全部序列之間同源基因,使用默認的分歧,安勤閾值
rsd_search -q例子/基因組/ Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject基因組=例子/基因組/ Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
使用多個非默認的分歧,安勤閾值找到同源基因
rsd_search -q例子/基因組/ Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject基因組=例子/基因組/ Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.several.orthologs.txt
--de 0.2 1E-20 --de 0.5 0.00001 --de 0.8 0.1
這是沒有必要格式化的BLAST一個FASTA文件或計算BLAST命中因為rsd_search會為你。
但是,如果你打算在同一基因組運行rsd_search多次,特別是大型基因組,你可以通過使用rsd_format到preformatting的FASTA文件和rsd_blast到預先計算的BLAST命中節省時間。當運行rsd_blast,請務必使用--evalue一樣大,你打算給rsd_search最大的安勤門檻。
下面是如何在地方格式化對FASTA文件:
rsd_format -g例子/基因組/ Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
rsd_format -g例子/基因組/ Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
這裡是如何格式化FASTA文件,把結果在另一個目錄(當前目錄在這種情況下)
rsd_format -g例子/基因組/ Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa -d。
rsd_format -g例子/基因組/ Mycobacterium_leprae.aa / Mycobacterium_leprae.aa -d。
下面是如何計算前向和反向鼓風命中(使用默認安勤):
rsd_blast -v -q例子/基因組/ Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject基因組=例子/基因組/ Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
--forward-命中q_s.hits --reverse,命中s_q.hits
下面是如何計算正向和反向爆炸擊中了rsd_search,使用已經被格式化爆炸的基因組和非默認安勤
rsd_blast -v -q Mycoplasma_genitalium.aa
--subject基因組= Mycobacterium_leprae.aa
--forward-命中q_s.hits --reverse-命中s_q.hits
--no格式--evalue 0.1
發現在該查詢已經被格式化為高爐全部序列,並使用基因組受試者的基因組之間的直系同源物
rsd_search -q Mycoplasma_genitalium.aa
--subject基因組= Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--no格式
找到查詢中的所有的序列,並使用該已計算出的命中受試者基因組之間的直系同源物。注意到--no格式被包括,因為自鼓風命中已計算出的基因組不需要被格式化為鼓風。
rsd_search -v --query基因組Mycoplasma_genitalium.aa
--subject基因組= Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.default.orthologs.txt
--forward-命中q_s.hits --reverse-命中s_q.hits --no格式
找到同源基因在基因組中查詢特定序列。為了找到同源基因只有短短數序列,使用--no-BLAST-緩存可以加快計算。情況因人而異。
rsd_search -q例子/基因組/ Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject基因組=例子/基因組/ Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o例子/ Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--ids例子/ Mycoplasma_genitalium.aa.ids.txt --no-BLAST-緩存
輸出格式
直向同源物可以保存在幾種不同的格式使用rsd_search的--outfmt選項。默認的格式,--outfmt -1,是指--outfmt 3. UNIPROT dat文件的啟發,一組同源基因的啟動與參數線,然後有0個或多個同源的線條,然後有一個端線。該指標的影響是查詢基因組名稱,主題基因組的名字,發散門檻,安勤門檻。每個直向同源物是在一行中,列出查詢序列的id,主題序列的id,以及最大似然距離估計。這種格式可以代表在單個文件中的直向同源物的不帶直系同源參數的多組參數,以及集。因此,指定多個分歧,安勤的閾值時,是適用於rsd_search使用。
下面是含有2參數組合,其中的一個具有沒有直向同源物的例子:
PA tLACJO tYEAS7 t0.2 T1E-15
OR tQ74IU0 tA6ZM40 t1.7016
OR tQ74K17 tA6ZKK5 t0.8215
//
PA tMYCGE tMYCHP t0.2 T1E-15
//
RSD的原始格式,--outfmt 1,提供了向後兼容性。每一行都包含的同源物,表示為主題序列號,查詢序列號,和最大似然距離估計。它只能代表在一個文件中的單組的直向同源物。
例如:
A6ZM40 tQ74IU0 t1.7016
A6ZKK5 tQ74K17 t0.8215
還提供向後兼容性是綜述內部使用的格式(http://roundup.hms.harvard.edu/),這是像原來的RSD格式,除了查詢序列ID列的主題序列號之前。
例如:
Q74IU0 tA6ZM40 t1.7016
Q74K17 tA6ZKK5 t0.8215
要求:
- 在Python中
- 在NCBI BLAST 2.2.24
- 在PAML 4.4
- 在Kalign 2.04
評論沒有發現