第44号:ゲノムおよび機能分子解析の進展
トップ  > 科学技術トピック>  第44号:ゲノムおよび機能分子解析の進展 >  タンパク質の構造予測手法の開発

タンパク質の構造予測手法の開発

(東京大学大学院農学生命科学研究科 教授) 2010年 5月22日

清水謙多郎

清水謙多郎(しみず けんたろう):
東京大学大学院農学生命科学研究科 教授

1957年4月生まれ。1985年東京大学大学院(最終出身校)情報科学専攻、理学博士。
研究内容は、タンパク質の構造予測、機能予測など。バイオインフォマティクスのさまざまな手法の開発に取り組む。食、環境など農学分野のバイオインフォマティクスの人材の養成、研究の推進を目的としたアグリバイオインフォマティクス教育研究プログラムに参加。
ホームページ: http://www.bi.a.u-tokyo.ac.jp/~shimizu/

はじめに

 タンパク質の立体構造を知ることは、タンパク質の機能の解明に重要な手がかりとなる。現在、さまざまな生物種のゲノムの解読が進み、塩基配列、アミノ酸配列のデータが急速に増大している。しかしながら、タンパク質の構造を実験によって決定するには多くの時間と費用を必要とするため、タンパク質構造データの増加はそれほど高くないのが現状である。このため、タンパク質構造予測の役割は、ますます重要になっていると言える。本稿では、我々のグループで開発しているタンパク質の構造予測、高精度のモデリング、フォールディングシミュレーション、タンパク質-タンパク質複合体の構造予測の概要について述べる。また、日本におけるこれらの研究の動向についても合わせて紹介する。

タンパク質の構造予測

 タンパク質構造予測の手法は、大きく比較モデリングとde novoモデリングに分類することができる。比較モデリングは、構造未知のタンパク質(ターゲット)の構造を、構造既知のタンパク質の中から鋳型(テンプレート)となる構造を選んで、それをもとに予測する手法である。計算時間もそれほど必要とせず、良いテンプレートがあれば高い精度で予測できる可能性があり、現実によく用いられている。de novoモデリングは、タンパク質の構造を特定のテンプレートを用いずに予測するというもので、その手法は、エネルギー関数を最小化することでモデル構造を構築するというものである。

 我々は、これまで、de novo構造予測システムABLEを開発してきた[1]。この手法の概要は以下の通りである。まず、構造を予測したいタンパク質のアミノ酸配列を長さ5~9残基の部分配列に区切り、それらがとり得る局所構造を、構造データベースを探索してあてはめ、全体構造を構築する。次に、構築した構造を統計ポテンシャルで評価し、ポテンシャルの低い構造を予測構造の候補とする(統計ポテンシャルとは、データベースに蓄積された構造情報をもとに設計された人工的なポテンシャルである)。最後に、候補となる構造に対して、クラスタリングを行い、代表的な構造を予測構造とする。

 現在のところ、100残基程度までの比較的小さなタンパク質で、場合によっては、結晶構造とのRMSD値が数Å程度の精度の高い予測構造が得られている。ただ、テンプレートを用いた比較モデリングに比べて精度は低く、100残基以下のタンパク質でもトポロジーが異なった予測結果が得られることもある。また、200残基を越えるタンパク質についてはほとんど予測ができていないのが現状である。しかしながら、de novo法は、既知の構造によらず、新規フォールドの予測を可能とするという特徴がある。比較モデリングでも、タンパク質のアミノ酸配列全長にわたってテンプレートが得らないケースは比較的多く、その場合はde novo法が有効となる場合がある。例えば、図1において、(1)の結晶構造(PDB ID:1VM0)をターゲットとして予測したとき、比較モデリングツールModellerでは、テンプレートが得られないC末26残基部分の構造が結晶構造と大きくずれてしまう、(2)のようなモデル構造が得られる。これに対し、C末部分にABLEを適用することで、(3)のように全体として精度の高いモデル構造を得ることができる。

図1

図1 比較モデリングとde novo法を組み合わせた構造予測の例

(1)結晶構造(PDB ID:1VM0)/(2) Modellerによるモデル構造/(3) C末部分にABLEを適用したときのモデル構造

高精度のモデリング - モデル構造の精密化

 我々は、寺田ら開発したマルチカノニカル分子動力学法(MD)[2]を用いて、比較モデリングで得られたモデル構造をさらに精密化する研究に取り組んでいる。

 具体的な問題として、FNIII10 (PDB ID:1FNA)とXlp SAP (PDB ID:1D4W)をターゲットとし、Modellerによって得られた予測構造を精密化することを試みた。FNIII10では、Modellerによる予測構造とネイティブ構造とのRMSDが3.0Åであったが、マルチカノニカルMDを用いた構造サンプリングにより、生成した構造の68%で予測精度の向上を達成し、そのうち、ネイティブ構造とのRMSDが0.7Åの構造を得ることができた(図2)。

図2

図2 分子動力学計算による高精度モデリングの例

 また、立体構造が多く決定されているSH2ドメインのうち、とくにhuman p56 lck (PDB ID:1LKK)の構造をもとに、同じくSH2ドメインのXlp SAP (PDB ID:1D4W)の構造を予測した。SH2ドメインは100アミノ酸残基程度からなりリン酸化チロシンを含んだペプチドを認識する機能をもつが、ペプチドを認識するループ部分がホモログ間で大きく変化している。とくにXlp SAPは、human p56 lckと比較して、ペプチド認識ループに10残基もの挿入配列があるため、既存の比較モデリングのみでは構造予測は困難である。我々は、比較モデリングツールModellerにより作成したモデル構造を初期構造とし、効果的な構造サンプリングを行うためマルチカノニカルMDを用いて、その精密化を試みた。その結果、結晶構造(PDB ID:1D4W)に近い構造群を得ることができた。また、結晶構造を初期構造として、マルチカノニカルMDを実行し、モデル構造を初期構造として実行したMDとの比較を行ったところ、それぞれのシミュレーションで得られた最も大きな構造のクラスタが一致することがわかった。このことは、我々の精密化の手法が、比較モデリングにおける信頼性の低い部分の精度の向上に効果的であることを示している[3]。

タンパク質のフォールディングシミュレーション

 タンパク質のフォールディングシミュレーションは、タンパク質構造が構築される過程を計算機上で再現し、その原理を解明することを目的とする。タンパク質の構造を一から予測するものであり、究極の構造予測と言える。

 我々が対象としたタンパク質の一つはchignolinである。chignolinは、Protein GのB1ドメインの42-52残基に基づいて人工的に設計・合成された10アミノ酸から構成されるポリペプチド鎖で、水溶液中において安定なβ- hairpin 構造を維持し、最小のタンパク質として知られている。我々は、完全に伸展した構造を初期構造としたマルチカノニカルMDを実行し、伸展構造からフォールドした構造を求めることに成功した。とくに、CαRMSD が0.19Å、芳香環の配向を含むNOE距離拘束条件数を99%再現する構造を見出すことができた。引き続き行ったフォールディング自由エネルギー地形の解析からは、フォールディングの駆動力となる重要な相互作用を同定することができた。さらに、我々は、chignolinの配列を様々に改変して、立体構造形成に関わる各残基の役割を明らかにするとともに、NMR実験も行って、MDで得られた結果を検証した[4]。

 MDによるフォールディングの再現には、サンプリング問題、ポテンシャルエネルギー関数の精度の問題、膨大な構造空間の探索に長時間のシミュレーションを必要とする問題がある。これらの問題を解決するため、二次構造を有する主鎖骨格の二面角を拘束するというMDの新たな手法を開発した。staphylococcal protein AのBドメインとその変異体(46残基)、およびFSD-EY(28残基)に適用し、実験結果と比較することで、天然の立体構造を天然の二次構造が形成されるコンフォメーション空間における自由エネルギー最小構造として正確に予測できることを示した。またこれらの分子のフォールディング過程を原子レベルで詳細に解析した[5]。図3は、staphylococcal protein AのBドメインのフォールディングシミュレーションの行ったときの様子を示したものである。四角で囲まれた構造が最も大きなクラスタ(存在割合7.0%)の代表構造で、結晶構造との CaRMSD値は1.65Åであった。

図3

図3 staphylococcal protein AのBドメインのフォールディングシミュレーション

タンパク質複合体の構造予測

 タンパク質複合体構造予測とは、タンパク質の単体構造をドッキングさせ、複合体構造をモデリングするというものである。これまで、複合体構造予測の手法としては、(1) 相互作用面の形状のマッチングを調べる手法、(2) タンパク質間の相互作用エネルギーが最小となる構造をエネルギー最小化計算により求める手法、(3) タンパク質間の相互作用エネルギーが最小となる構造を網羅的に探索する手法が提案されており、とくに、(3)の手法は、効率的で精度も比較的良いため、他の手法と組み合わせる場合も、基盤となる手法としてよく用いられてきた。網羅的な探索手法としては、高速フーリエ変換(FFT)が一般に用いられており、FTDock、ZDOCKなど、現実のシステムでも利用されている。しかしながら、結合時の構造変化を考慮した精度の高い予測を行うには、多数の予測構造の候補を高速に生成することが重要であり、従来の手法では十分に対応できているとはいえない。

 そこで、我々は、FFTに代わる手法として、球面調和関数と新規に設計した正規直交基底関数の級数展開による高速内積計算を使ったアルゴリズムを開発した[6]。本アルゴリズムでは、タンパク質の相互作用を表すスコア関数を、各分子から定義されるスカラー場の関数f, gの内積の線形和

として表し、これを最小にする変換関数Tを求める。各コンフォメーション(単体構造の結合のしかた)においてこのスコア関数の値を計算し、その値が低いものから順に、上位のものを候補コンフォメーションとする。各スカラー場は、その内積が、表現したいエネルギーもしくは性質を反映するように柔軟に定義でき、例えば、分子形状の相補性や各種ペアポテンシャル、静電相互作用などを表現することが可能である。また、本手法では、スカラー場を上記正規直交基底関数で展開することにより、スコア関数の計算に必要な内積計算を高速に行うとともに、配座空間の探索に必要な座標変換操作も高速に行うことができる。

 また、我々は、展開係数によるスカラー場の表現能力が、中心からの距離rの増加に従って劣化するという、球面調和関数に基づく基底関数を用いた方式の問題点を解決するため、とくに分子の表現空間を階層的に定義し、それぞれの階層において異なる動径基底関数を適用する手法を新たに開発した。これにより、比較的少数の係数でスカラー場を効率的に表現することができるようになり、我々が調べたタンパク質の約7割で予測精度を改善することができた。FTDockと比較しても、同程度の精度で予測するのに、16倍から160倍以上の高速化を達成している。図4は、我々の複合体構造予測の実行結果を示したものである。(1)はターゲットの複合体構造(PDBID:1UGH)、(2)は予測構造である。この予測構造は第1位にランクされた構造で、結晶構造とのI-RMSD値(インターフェースを形成する残基(他方の分子に属する原子の10Å以内に一つでも原子を持つ残基)のCα原子のRMSDの値)は2.70Åであった。

図4

図4 ドッキングシミュレーションの結果の例

(1)複合体の結晶構造(PDBID:1UGH)/(2)複合体の予測構造

日本における研究の動向について

 タンパク質の構造予測については、比較モデリングの研究で優れた成果を挙げているシステムとして、北里大学の梅山、竹田-志摩らによるFAMSがある。タンパク質構造予測コンテスト(Critical Assessment of Techniques for Protein Structure Prediction, CASP)でも常にトップクラスの成績を挙げている。比較モデリングの核となるモデル構造の構築のプログラムを独自に開発しており、ターゲットとテンプレートのアラインメントにおいても複数の手法を組み合わせて、予測の自動化を行っている[7]。また、産業総合技術研究所生物情報工学研究センターの富井らは、比較モデリングにおけるターゲットとテンプレートの配列アラインメントにおいて、構造類似性の認識感度の向上による予測可能範囲の拡大と、アラインメント精度の改善を目指した、FORTEというプロファイル比較によるアラインメント手法を開発している[8]。FORTEを用いた構造予測も、CASPで優れた成績を挙げている。

 MDを用いたタンパク質の構造精密化は一般に広く行われているが、その方法論の開発まで行っているところは限定されている。フォールディングシミュレーションについては、大阪大学の中村春木教授を中心とするグループ、名古屋大学の岡本祐幸教授のグループなどで、世界的なフロンティアの研究が行われている。また、粗視化モデルに基づく手法も、フォールディングシミュレーションの重要なアプローチであり、名古屋大学の笹井理生教授らの研究などが挙げられる。

 タンパク質複合体の構造予測システムについては、東北大学の木下、大阪大学の中村らによるsurFit [9]、東京工業大学の秋山らよるMEGADOCK、北里大学の梅山、竹田-志摩らによるSKE-DOCK [10]などがある。surFitでは、evolutionary trace法による進化スコアと形状相補性の両方からドッキングを行う手法で、MEGADOCKは、FFTライブラリの高速化によりドッキングの速度を向上させている。SKE-DOCKは、形状マッチングによるドッキング、構造評価による候補構造の選択の後、FAMS Complexを用いた側鎖の再構築を行っている。

参考文献:

  1. K. Sumikoshi, T. Terada, S. Nakamura, K. Shimizu: A fast protein-protein docking algorithm using series expansion in terms of spherical basis functions, Genome Informatics, 16, 161-173 (2005).
  2. T. Terada, Y. Matsuo, A. Kidera: A method for evaluating multicanonical potential function without iterative refinement: Application to conformational sampling of a globular protein in water, Journal of Chemical Physics, 118, 4306-4311 (2003).
  3. R. Ishitani, T. Terada, K. Shimizu: Refinement of comparative models of protein structure by using multicanonical molecular dynamics simulations, Molecular Simulation, 34, 327-336 (2008).
  4. T. Terada, D. Satoh, T. Mikawa, Y. Ito, K. Shimizu: Understanding the roles of amino acid residues in tertiary structure formation of chignolin by using molecular dynamics simulation Proteins, 73, 3, 621-631 (2008).
  5. T. Furuta, K. Shimizu, T. Terada: Accurate prediction of native tertiary structure of protein using molecular dynamics simulation with the aid of the knowledge of secondary structures, Chemical Physics Letters, 472, 134-139 (2009).
  6. K. Sumikoshi, T. Terada, S. Nakamura, K. Shimizu: A fast protein-protein docking algorithm using series expansion in terms of spherical basis functions, Genome Informatics, 16, 161-173 (2005).
  7. G. Terashi, M. Takeda-Shitaka, K. Kanou, M. Iwadate, D. Takaya, A. Hosoi, K. Ohta, H. Umeyama: Fams-ace: a combined method to select the best model after remodeling all server models, Proteins, 69, Suppl 8, 98-107 (2007).
  8. K. Tomii, Y. Akiyama: FORTE: a profile-profile comparison tool for protein fold recognition, Bioinformatics, 20, 594-595 (2004).
  9. E. Kanamori, Y. Murakami, Y. Tsuchiya, D. M. Standley, H. Nakamura, K. Kinoshita: Docking of protein molecular surfaces with evolutionary trace analysis, Proteins, 69, 832-838 (2007).
  10. G. Terashi, M. Takeda-Shitaka, K. Kanou, M. Iwadate, D. Takaya, H. Umeyama: The SKE-DOCK server and human teams based on a combined method of shape complementarity and free energy estimation, Proteins, 69, 866-872 (2007).