一般定序產出的雙倍型生物的單倍型共同序列(haploid consensus sequences of diploid organisms)雖然解決了異型合子的問題,但這個共同序列是根據該異型位點的核甘酸種類多寡來隨機決定的(randomly phasing),因此這個序列可能並不真實存在在自然中,然而若使用unphased sequences又可能導致錯誤的參數估算,如利用IUPAC來編碼異型位點會傾向將分化時間計算得更古老。這篇研究比較不同phasing的方法所得到的族群遺傳參數有何不同,包含:物種樹(species tree)、有效族群量、分化時間以及種間雜交(遺傳滲漏),以上參數都由BPP (Bayesian Phylogenetics & Phylogeography)程式來計算。
用來phasing的方法有以下四種:
(1) Full strategy (F): fully resolved sequences; serving as gold standard
(2) Analytical strategy (D): analyzing unphased sequences using diploid or phase option in BPP
(3) PHASE strategy (P): the program PHASE
(4) Random phase strategy (R): random phase resolution
序列來源則有兩種:模擬產生和真實的生物序列(青蛙和花栗鼠)。因為策略F的完全解析序列是電腦模擬產生的,所以分析真實生物序列時並不會用到策略F;另外,作者額外用 (5) Ambiguity strategy (A; IUPAC編碼異型位點)來分析青蛙和花栗鼠的序列。
先說電腦模擬的結果。在物種樹重建、分化時間和有效族群量估算方面,F、D、P、R四個策略用在deep phylogeny和低mutation rate時的表現差不多;但用在shallow phylogeny時,策略R會高估分化時間和有效族群量,策略P會低估分化時間(尤其mutation rate高的時候),策略P和R在重建物種樹的表現不佳(尤其mutation rate高的時候),而策略D的表現則都和策略F差不多。在估算遺傳滲漏方面,策略D和策略F的表現差不多,在低mutation rate時四個策略也表現相似;然而當用在高mutation rate時,策略R會高估遺傳滲漏率,策略P則是低估。
再來是真實生物的序列,由於策略F在這不適用,根據電腦模擬的結果策略D的表現與策略F最相似,所以這裡用策略D當作「解答」的準則。首先是青蛙,四個策略(D、P、R、A)都重建出相同的物種樹樹型;族群遺傳參數方面,策略P和策略D得出相似的結果,策略R高估有效族群量(根據族群遺傳參數θ),策略A則嚴重低估現存支系的有效族群量(θ)和分化時間。至於花栗鼠,策略D、P、R得到相同的物種樹,但策略A得出的樹型不同;族群遺傳參數的結果則與青蛙相同。
總結來說,當用在deep phylogeny(也就是物種分化時間早於coalescent time)時,phasing策略的差異對結果影響不大;phasing error的影響主要體現在shallow phylogeny和mutation rate很高的時候。這篇研究是蠻好的分析策略應用的文章,作者給了幾個務實上的建議:
(1) 避免使用策略R和策略A,因為它們的表現比策略P還糟;
(2) 若序列中含有unphased data,推薦使用策略D,因為它的表現和策略F差不多;
(3) 若考慮到運算時間限制,策略P可作為策略D的替代方案。