Bayesian
Evolutionary
Analysis by
Sampling
Trees (BEAST) 2 はベイズ解析を行うプログラムです。系統解析や分岐年代推定、有効集団サイズの推定などさまざまな機能がありますが、ここでは分岐年代推定の手順を説明します。なお、以下の説明は全てバージョン2.5.2で行っています。他のバージョンだと異なる場合があります。
インプットファイルの作成
まず最初に解析に使用する配列ファイル(NEXUSファイル、FASTAファイル)を準備します。このファイルをBEAUTiという同梱ソフトに読み込ませ、xml形式のインプットファイルを作成します。
配列ファイルが準備できたらBEAUTiを起動します(図1)。
 |
| 図1 |
配列ファイルを読み込むには左上の「File」 > 「Load」の順にクリックするか、左下の「+」マークをクリックします。クリックするとファイルの選択画面が表示されるので、解析に用いるファイルを選択します。配列ファイルがFASTA形式の場合、アミノ酸配列か塩基配列かを聞かれますので、適当な方を選択します(今回の例では塩基です)。ファイルが複数ある場合、上記の作業を繰り返して全てのファイルを読み込んで下さい。読み込み完了後、配列が複数ある場合は、全ての配列を選択した上で、「Link Clock Models」, 「Link Trees」をクリックします。
 |
| 図2 |
続いて、「Site Model」のタブをクリックします(図2)。ここでは塩基置換モデルの設定を行います。図2はGTR+G+Iモデルでの設定例です。他のモデルを使用する場合は、適宜変更を加えて下さい。まず、「Gamma Category Count」を「4」にします。すると「Shape」という項目が現れますので、そこの「estimate」チェックボックスにチェックを入れます。「Subst Model」の項目で「GTR」を選択し、「Frequencies」を「Empirical」に設定します。最後に、「Substitution Rate」の「estimate」チェックボックスにチェックを入れます。複数の配列がある場合、これを全てに対して行います。
 |
| 図3 |
次に、「Clock Model」タブに移動します(図3)。ここでの選択肢は4つです。「Strict Clock」は、系統樹上の全ての枝で塩基置換速度が一定であることを仮定しています。「Relaxed Clock Exponential」および「Relaxed Clock Log Normal」では、系統樹上の枝ごとの塩基置換速度はそれぞれ独立に指数分布および対数正規分布に従うとそれぞれ仮定します。「Random Local Clock」は、ベイズ法により系統樹上で塩基置換速度が一定である部分系統樹を提案し、部分系統樹ごとに塩基置換速度を推定するようです(間違っていたら教えて下さい)。そのため、塩基置換速度の変動数としては、「Strict Clock(変動は全くなし)」より大きく、「Relaxed Clock(全ての枝で変動)」より小さくなります。自分は一度使ったことがあったのですが、全く収束しなかったので諦めた覚えがあります。
どれが最適なモデルかは正直わかりませんが、近縁種間の分岐年代推定でなければ、たいてい 「Relaxed Clock Log Normal」が使われることが多いと思います。
 |
| 図4-1 |
「Priors」タブに移動します(図4-1)。ここでは主に較正点(Calibration point)の設定を行います。一番下にある「+」マークをクリックします。次に表示された画面では「MRCA prior」を選択します。一番上の「Taxon set label」には較正点の名前(任意)を入力します。続いて較正点を入れるノードに含まれる全てのタクサを右のボックスに移動させます。例えば、図4-2のような系統樹があり、ノード1を較正点としたい場合はC、D、Eのタクサを全て右のボックスへ移してください。タクサの移動が完了したら「OK」をクリックします。
 |
| 図4-2 |
「OK」をクリックすると、先程設定した較正点の名前がついた新しい項目が追加されます。ここで較正点として使用する分布を選択します。分布を選択したら左端の「▶」をクリックして分布の数値(平均、分散、上限、下限など)を入力します。また、較正点があるノードの単系統性が確実であるならば、「monophyly」にチェックを入れておきます。これにより、系統推定の間このノードが固定されます(系統推定を行わない場合は必要ないと思います)。較正点が複数ある場合、全てに対してこの作業を繰り返します。
最後に「MCMC」 タブに移動します。「Chain Length」では、MCMC(マルコフ連鎖モンテカルロ法)の試行回数を指定します。BEASTを使っている論文では、少なくとも1000万回は行われているかと思います。足りない場合は後から追加することができるので、とりあえず1000万回から始めてみれば良いと思います。次に、「trace log」「tree log」のファイル名を入力します。これらが終わったら「File」>「Save as」を選択し、xml形式で保存してください。
初期系統樹の指定方法
 |
| 図5 |
ここでは初期系統樹の指定方法を説明します。必要ない場合は次のステップに飛んでください。最近は初期系統樹の指定もBEAUTiを使ってできるようになりました。画面の上の方にある「View」をクリックし、「Show Starting tree panel」を選択してください。「Starting tree」というタブが新しくできるので移動します(図5)。移動したら「Initial Tree」で「Newick Tree」を選択し、その下の「Newick」ボックスに系統樹を貼り付けてください。ここで、「Adjust Tip Heights」と「Adjust Tree Node Heights」にチェックが入っていることを確認してください。万が一、入ってなかったら付けておきます。
 |
| 図6 |
系統樹の指定は以上ですが、 次にBEAST解析の間、系統推定を行わせないようにする方法の説明をします。「View」>「Show Operators panel」を選択して、そのタブに移動してください。ここで、「Subtree Slide」と「Exchange: Tree.t ~ Narrow exchange」、「Exchange: Tree.t ~ Wide exchange」、「Wilson Balding」の4つの項目の右側の数値をゼロに書き換えます(図6)。これにより、分岐年代推定中は樹形が固定されます。
解析の実行
解析の実行を実行するためBEASTを起動します。「Choose File」をクリックし、上で作成したxmlファイルを選択します。その後、一番下にある「Run」をクリックすると解析が始まります。BEAGLEをインストールしている場合、「Use BEAGLE Library if available」にチェックを入れておくと解析が速くなります。BEAGLEが使えるかどうかは、「Use BEAGLE Library if available」と「Show list of ...」にチェックを入れて「Run」をクリックするとわかります。
0 件のコメント:
コメントを投稿