基因樹的估算錯誤是重建species tree時一個重要的誤差來源,尤其是對快速種化的類群而言。因為SNP-based的方法不依賴重建每棵基因樹,所以是個有潛力解決以上誤差的替代方法。SNP data還有運算效率較佳、適用老舊標本、較省定序成本等優點。雖然很多研究顯示SNP-based和gene tree-based的方法在重建species tree時的表現一致,但也很多發現不一致的研究,尤其是樹的枝長很短還有incomplete lineage sorting影響的時候。本研究旨在解析地松鼠的親緣關係,並評估不同datasets在重建species tree時的表現。在重建親緣關係方面,作者主要準備了兩種來源的data:
(1) UCE-derived SNPs (phased & unphased)
(2) 粒線體基因體
分析方面,作者想知道不同處理data的方法和建樹程式的表現,使用SNAPP和SVDquartets來分析phased和unphased SNPs、MrBayes來分析粒線體基因。這兩個程式分別分析下列的datasets:
(1) SNAPP
a. phased 1-3 (single phased SNP randomly selected per locus for 3 replicates)
b. consensus 1-3 (single consensus SNP randomly selected per locus for 3 replicates)
(2) SVDquartets
a. phased 1-3 (unlinked SNPs, two alleles per sample)
b. consensus 1-3 (unlinked SNPs, one allele per sample)
c. all biallelic SNPs (all phased SNPs per locus)
d. all SNPs (也是所有phased SNPs,不確定差異在哪?)
結果顯示,SNAPP和SVDquartets需要的運算時間有很大差異,SNAPP花了超過一個月來達到可接受的effective sample sizes (ESS;一般來說是ESS>200),但SVDquartets只需要一兩天便能完成分析(當設定bootstraps=1000);樹形和支持度也有差別,當使用phased SNPs的時候SNAPP能得到大致有不錯支持度(posterior probability>0.8)的樹,但若是unphased SNPs (也就是consensus SNPs)會得到一個稍微不同的而且支持度低很多的樹形;相反的,無論是phased或unphased SNPs,SVDquartets均產出支持度很高的樹,即使這兩種datasets得到的樹形有點不同,這會導致對SVDquartets的結果有不合理的信賴,作者也引用了一些文獻說明SVDquartets常常高估樹的支持度。因此,以這篇研究來說,作者較偏好SNAPP的結果。
Phasing與否是這篇研究另一個探討的重點,先前的研究已經顯示,對於晚近分化的種群來說,phasing對於重建其親緣關係有很大幫助。這篇研究地松鼠的結果也得到差不多的結論,使用phased SNPs能得到比較真實的分化時間估算,還有較佳的樹形解析度和支持度。然而,對於較深的演化關係(at deeper phylogenetic levels;屬級以上)而言,phased SNPs並沒有顯著改善樹的解析度和支持度,當使用三個phased datasets,SNAPP產出不一致的演化關係樹;反而是consensus datasets的三個結果為一致,而且都有高支持度。雖然phased SNPs在較高階的演化關係重建表現沒比較好,但作者認為phased data才是真實反映了incomplete lineage sorting在重建species tree時產生的衝突。
沒有留言:
張貼留言