2024年12月12日 星期四

使用BPP分析unphased sequences時的勸世好文

一般定序產出的雙倍型生物的單倍型共同序列(haploid consensus sequences of diploid organisms)雖然解決了異型合子的問題,但這個共同序列是根據該異型位點的核甘酸種類多寡來隨機決定的(randomly phasing),因此這個序列可能並不真實存在在自然中,然而若使用unphased sequences又可能導致錯誤的參數估算,如利用IUPAC來編碼異型位點會傾向將分化時間計算得更古老。這篇研究比較不同phasing的方法所得到的族群遺傳參數有何不同,包含:物種樹(species tree)、有效族群量、分化時間以及種間雜交(遺傳滲漏),以上參數都由BPP (Bayesian Phylogenetics & Phylogeography)程式來計算。

用來phasing的方法有以下四種:

(1) Full strategy (F): fully resolved sequences; serving as gold standard

(2) Analytical strategy (D): analyzing unphased sequences using diploid or phase option in BPP

(3) PHASE strategy (P): the program PHASE

(4) Random phase strategy (R): random phase resolution

序列來源則有兩種:模擬產生和真實的生物序列(青蛙和花栗鼠)。因為策略F的完全解析序列是電腦模擬產生的,所以分析真實生物序列時並不會用到策略F;另外,作者額外用 (5) Ambiguity strategy (A; IUPAC編碼異型位點)來分析青蛙和花栗鼠的序列。

先說電腦模擬的結果。在物種樹重建、分化時間和有效族群量估算方面,F、D、P、R四個策略用在deep phylogeny和低mutation rate時的表現差不多;但用在shallow phylogeny時,策略R會高估分化時間和有效族群量,策略P會低估分化時間(尤其mutation rate高的時候),策略P和R在重建物種樹的表現不佳(尤其mutation rate高的時候),而策略D的表現則都和策略F差不多。在估算遺傳滲漏方面,策略D和策略F的表現差不多,在低mutation rate時四個策略也表現相似;然而當用在高mutation rate時,策略R會高估遺傳滲漏率,策略P則是低估。

再來是真實生物的序列,由於策略F在這不適用,根據電腦模擬的結果策略D的表現與策略F最相似,所以這裡用策略D當作「解答」的準則。首先是青蛙,四個策略(D、P、R、A)都重建出相同的物種樹樹型;族群遺傳參數方面,策略P和策略D得出相似的結果,策略R高估有效族群量(根據族群遺傳參數θ),策略A則嚴重低估現存支系的有效族群量(θ)和分化時間。至於花栗鼠,策略D、P、R得到相同的物種樹,但策略A得出的樹型不同;族群遺傳參數的結果則與青蛙相同。

總結來說,當用在deep phylogeny(也就是物種分化時間早於coalescent time)時,phasing策略的差異對結果影響不大;phasing error的影響主要體現在shallow phylogeny和mutation rate很高的時候。這篇研究是蠻好的分析策略應用的文章,作者給了幾個務實上的建議:

(1) 避免使用策略R和策略A,因為它們的表現比策略P還糟;

(2) 若序列中含有unphased data,推薦使用策略D,因為它的表現和策略F差不多;

(3) 若考慮到運算時間限制,策略P可作為策略D的替代方案。

2024年12月11日 星期三

不同SNP-based重建species tree的方法評估地松鼠的親緣關係

基因樹的估算錯誤是重建species tree時一個重要的誤差來源,尤其是對快速種化的類群而言。因為SNP-based的方法不依賴重建每棵基因樹,所以是個有潛力解決以上誤差的替代方法。SNP data還有運算效率較佳、適用老舊標本、較省定序成本等優點。雖然很多研究顯示SNP-based和gene tree-based的方法在重建species tree時的表現一致,但也很多發現不一致的研究,尤其是樹的枝長很短還有incomplete lineage sorting影響的時候。本研究旨在解析地松鼠的親緣關係,並評估不同datasets在重建species tree時的表現。在重建親緣關係方面,作者主要準備了兩種來源的data:

(1) UCE-derived SNPs (phased & unphased)

(2) 粒線體基因體

分析方面,作者想知道不同處理data的方法和建樹程式的表現,使用SNAPP和SVDquartets來分析phased和unphased SNPs、MrBayes來分析粒線體基因。這兩個程式分別分析下列的datasets:

(1) SNAPP

a. phased 1-3 (single phased SNP randomly selected per locus for 3 replicates)

b. consensus 1-3 (single consensus SNP randomly selected per locus for 3 replicates)

(2) SVDquartets

a. phased 1-3 (unlinked SNPs, two alleles per sample)

b. consensus 1-3 (unlinked SNPs, one allele per sample)

c. all biallelic SNPs (all phased SNPs per locus)

d. all SNPs (也是所有phased SNPs,不確定差異在哪?)

結果顯示,SNAPP和SVDquartets需要的運算時間有很大差異,SNAPP花了超過一個月來達到可接受的effective sample sizes (ESS;一般來說是ESS>200),但SVDquartets只需要一兩天便能完成分析(當設定bootstraps=1000);樹形和支持度也有差別,當使用phased SNPs的時候SNAPP能得到大致有不錯支持度(posterior probability>0.8)的樹,但若是unphased SNPs (也就是consensus SNPs)會得到一個稍微不同的而且支持度低很多的樹形;相反的,無論是phased或unphased SNPs,SVDquartets均產出支持度很高的樹,即使這兩種datasets得到的樹形有點不同,這會導致對SVDquartets的結果有不合理的信賴,作者也引用了一些文獻說明SVDquartets常常高估樹的支持度。因此,以這篇研究來說,作者較偏好SNAPP的結果。

Phasing與否是這篇研究另一個探討的重點,先前的研究已經顯示,對於晚近分化的種群來說,phasing對於重建其親緣關係有很大幫助。這篇研究地松鼠的結果也得到差不多的結論,使用phased SNPs能得到比較真實的分化時間估算,還有較佳的樹形解析度和支持度。然而,對於較深的演化關係(at deeper phylogenetic levels;屬級以上)而言,phased SNPs並沒有顯著改善樹的解析度和支持度,當使用三個phased datasets,SNAPP產出不一致的演化關係樹;反而是consensus datasets的三個結果為一致,而且都有高支持度。雖然phased SNPs在較高階的演化關係重建表現沒比較好,但作者認為phased data才是真實反映了incomplete lineage sorting在重建species tree時產生的衝突。