ゲノム配列情報解析の課題と未来について

2010年 5月18日

中井謙太（なかいけんた）：東京大学医科学研究所教授

1963年8月生まれ。1989年京都大学大学院理学研究科退学、京都大学化学研究所助手、1992年理学博士号取得。同年基礎生物学研究所助手、1995年大阪大学細胞生体工学センター助教授。1999年東京大学医科学研究所助教授を経て、2003年より現職。平成18, 19年度日本バイオインフォマティクス学会会長。
主な著書に、中村春木・中井謙太, バイオテクノロジーのためのコンピュータ入門, コロナ社 (1995)、吉川寛・伊藤隆司・上野直人・佐々木裕之・中井謙太, ゲノム科学の基礎（現代生物科学入門１）, 岩波書店 (2009)

1. はじめに

　筆者は、バイオインフォマティクスと呼ばれるゲノムの基礎研究に携わる者である。最近小さいながらも、いくつかの面で中国とご縁があり、また常々その国土と科学の著しい発展ぶりに驚嘆させられてきたので、今回この執筆のお話をいただいて、うれしく思う。たとえば、筆者は昨年（2009年）、北京で開催された The 3rd International Conference on Bioinformatics and Biomedical Engineering (iCBBE2009) と、上海で開催された International Conference on Computational and Systems Biology (iCCSB2009) において、招待講演をさせていただいたが、特に上海では、杭州などの近郊都市を含め、訪問するたびに街並が目に見えて変貌していくことに強い印象を受けた。また、私の研究分野では例えば BGI（旧称 Beijing Genomics Institute）という研究所の目覚ましい活動に目が離せないでいる。私の研究室には現在、中国からの留学生が２名いるが、今後ともいろいろなチャンネルを通じて、中国の研究者と関係を深めていきたいと考えている。本稿では、筆者が大学院生の頃から関わってきた研究課題（中国にも何人か専門家がいる）を説明し、そこに潜む問題点を論じることから出発して、より一般的にゲノム配列情報解析の今後について論じることにする。

2. 細胞内局在部位予測

　もう20年近く前のことになるが、筆者の学位論文のテーマは、タンパク質の細胞内の運命をそのアミノ酸配列から予測することであった。つまり、タンパク質が細胞内で翻訳された後、どのような翻訳後修飾を受け、どのようなオルガネラに局在し、またどのような寿命で分解を受けるのかといった情報は、基本的には個々のアミノ酸配列中にコードされており、細胞内でその情報が適切なレセプタータンパク質などに認識されることによってデコードされるので、コンピュータ解析によっても同様にそのような情報を読み取れるはずであるというのが、その主張の骨子であった。その中でも、博士課程では主に細胞内局在の部分を研究したが、そのとき構築した予測システムPSORTは、それまで類似のシステムがなかったこともあり、当時広まりつつあったインターネット経由の予測サーバの一つとして、広く知られるようになった。実際、後に発表したその改訂版と共に、二つの報告論文の引用数は1000回を超えている1),2)。それほど引用数が伸びたのは、第一には実験研究者が研究対象の機能未知遺伝子を解析する手がかりとして利用してくださったためと思われるが、第二には、（実は筆者の予想を裏切って）現在でも新しい予測プログラムが開発され続けているからである。多分偶然であろうが、タンパク質の細胞内局在予測の研究は、中国を含む、東アジアの国々で特に盛んであるように思われる。ともあれ、筆者は局在部位予測研究の現状に若干不満をもっている。そしてその不満は、ある意味では、局在部位予測にとどまらず、配列に基づく予測という枠組み全体にも当てはまるような気がするのである。以下の内容に興味をもっていただけた場合は、筆者らが最近執筆した別の総説も参照されたい3)。

3. なぜ予測するのか

　筆者が当時、タンパク質の細胞内局在部位の予測に着目した理由は、それ以前からよく研究され、その困難さが指摘されてきたタンパク質の立体構造予測を意識して、それとは別の、できれば生物学的に有用な情報を取り出したいと考えたからであった。もちろん、立体構造予測が生物学的に有用でないという意味ではなく、実はタンパク質の立体構造予測には、「第二の遺伝暗号」を解くという、根本的に重要な意味があることは理解していた。しかし、あまり当たらなかった二次構造予測などは、当時「やらないよりはマシ」などと、自嘲的に言われる存在であった。その当否はともかくとして、「第二の遺伝暗号の解読」が「（立体構造の）予測法の開発」という形で定式化されていたことは、大いに参考となった。筆者の目標も、実用性を目指すというよりはむしろ、「配列という形でコードされた遺伝情報の解読はどこまで可能か？」という、いわばゲノム配列情報科学の根本の疑問にアプローチするためのテストケースのつもりであった。そのような理由で、筆者も研究を細胞内の局在部位の予測法の開発という形で定式化したのである。

4. 予測法としての定式化の光と影

　ゲノム情報の解読を予測法という形で定式化することのメリットは特に詳しく論じるまでもないだろう。これによって、入出力の論理が明確になり、性能評価が客観的にやりやすくなった。従って、いろいろな研究者が開発した予測法の性能比較がやり易くなった。しかしその後、以下に示すような定式化によるいくつかの弊害が、徐々に顕在化してきたように思われる。難しいのは、それらは定式化の利点と表裏一体のところがあり、簡単に回避できるものでもないことである。

4.1 第一のデメリット

　まず、単にできあいの（質の悪い）学習用データを使って、予測性能を従来法より上げることだけが重視される風潮を招いてしまったように思われる。配列に基づく予測法は、いわゆるパターン認識法という形で一般化して考えることができる。まず入力される配列から適当な特徴群を抽出し、その配列を特徴ベクトルという形で表現すれば、後はさまざまなパターン認識アルゴリズム（たとえばサポートベクターマシン）を適用することができる。その中で、筆者が重要視する特徴抽出の部分が、ともすれば軽視されがちな気がする。そもそも、アミノ酸配列に基づいて、タンパク質の細胞内局在部位がなぜ予測できるのかという点についての何の反省もないように思える研究が多いのは残念である。上述のように、筆者が局在部位予測というものをそもそもやろうと考えたのは、タンパク質の細胞内局在部位の情報がシグナルという形でそれぞれのタンパク質の配列中に書き込まれていることを知ったからである。もし予測にこのシグナル情報とは無関係の情報を用いる場合は、それでなぜ予測ができるのか（あるいは、その情報によって原理的にどの程度までの予測が可能なのか）に関する考察が必要であろう。

4.2 第二のデメリット

　定式化によって生じた、行き過ぎた予測性能競争の影響の第二点は、上の指摘とはある意味では逆に、新しい特徴量を導入しようとするあまり、本末転倒とも言うべき情報を利用した予測法が増えてしまったことである。たとえば、予測に局在部位既知タンパク質のデータベースに対する相同性検索結果を用いたアルゴリズムがかなり一般的になっている。いわゆるプロテオーム研究の進歩により、酵母等においては、大半のタンパク質の局在部位が実験的に決定されているので、他の真核生物でも多くのタンパク質が酵母に相同なタンパク質を持つことを利用して、相同性を頼りに予測を行うことができる。実際、UniProt などのアミノ酸配列データベースにおいても、タンパク質の局在情報として、相同性のみに基づくアノテーションを加えることが行われていたので、この方法の実用上の有効性は明らかであるが、筆者の考えでは、予測に相同性を用いることはある種の禁じ手と考えるべきで、これを許してしまうと、それこそ新しいアルゴリズムなどを考えなくても、相同性がある場合は誰にでも予測ができてしまうし、予測性能を検証するデータに、どれだけの相同タンパク質が含まれているかによって、評価結果が大きく左右されてしまうのは明らかである。さらに極端な場合として、予測に用いるデータが既知データベース中のエントリーである場合は、そこにあるGene Ontologyなどの注釈情報まで入力に取り入れるアルゴリズムも複数発表されている（あるいは、相同配列データのアノテーション情報を利用するなど）。Gene Ontology の情報の中には、局在情報も含まれているので、それを用いるというのは、筆者には本末転倒に思えるが、そのような研究論文がそれなりに有名なジャーナルで発表されたりもしている。ともあれ、相同性やアノテーション情報を利用すれば、局在部位だけでなく、データベースに書かれているどんなことでも予測できるという意味では、この問題は普遍的であるが、反面、問題点の所在がわかりやすい、特殊な問題とも言えるので、これ以上はふれない。

4.3 第三のデメリット

　局在部位予測問題という定式化によって顕在化した問題点の第三は、ゲノム配列解析に関わる多くの予測問題にも共通する、客観的評価の難しさについてである。一般にパターン認識の分野では、それぞれの方法の予測能力を評価するとき、予測法を構築するのに用いるデータ（学習用データ）と、予測法を評価するのに用いるデータ（テスト用データ）をはっきり分けるのが原則である。これは、一般に予測法は学習用データをうまく認識できるように最適化されるので、必ずしも未知データには最適化されておらず、従って学習用データの認識性能は未知データのそれより高くなりがちだからである。下手な試験勉強で例題を丸暗記してしまって、応用力が付かないような状況である。このデータ分離（独立性）の原則は、もちろん局在部位予測でも表面的には守られている。しかし、ゲノム研究に用いられるデータの有限性、相同性による冗長性という問題がここに表れる。通常のパターン認識問題、たとえば手書き文字の認識、であるなら、サンプルに用いられるデータは無限に存在するのに対して、局在部位予測に代表されるゲノム配列解析においては、データの有限性が問題になってくる。もとよりヒトゲノムには、せいぜい２万種類余りのタンパク質コード遺伝子しか存在しないし、それらの遺伝子も、進化的には遺伝子重複でできたものを多く含んでいる。他の生物種のデータを追加してデータ数を増強しようとしても、たいていは相同性をもっているので、データ相互の独立性を保つのは容易ではない。さらに、生物のもつ多様性に起因する問題もある。細胞内局在の例でいえば、ある局在部位（オルガネラ）に局在することを指示するシグナルは決して一種類ではなく、いろいろ例外的な局在化機構が存在するようである。これを細かく調べていって、それぞれを場合分けしていくと、それぞれのデータ数が統計処理に耐えられるほど集まらなくなり、結局のところ、上述の学習データの丸暗記とあまり変わらないことになってしまう。

5. 再び、なぜ予測するのか

　これまで述べてきたように、ゲノムデータの解釈を予測法という形で定式化し、パターン認識問題として扱おうとすると、ゲノムデータのもつ有限性、歴史性、多様性などの本質的問題のために、数々の無理が生じてしまう。そもそもゲノムのように有限なものを扱うのに、予測法という、未知の入力に対する性能を問題にする定式化が本当に適切なのかという疑問が起こる。たとえば、ゲノム研究では、遺伝子の構造をモデル化して、未知のゲノム配列が与えられたとき、モデルに適合する領域を探すという「遺伝子発見問題」があるが、主要なモデル生物の遺伝子の研究が進み、異種ゲノム間の比較解析が盛んな今日においては、少なくとも表面的には、遺伝子発見プログラムはその実用的価値を失ったとも言える。しかしながら、我々は決して、遺伝子の構造についてすべてを知ったわけではなく、たとえば選択的スプライシングのメカニズムなど、知らないことの方が多い。従って、現在わかっていることをモデル化・定式化して、そのモデルで手持ちのデータをどこまで説明できるかを探るアプローチは、今後ますます重要になるかもしれない。私見によれば、ゲノム研究は今後、どうしても細かい知識の記述に終始せざるを得なくなると思う。タンパク質コード領域やその制御領域の構造をモデル化する試みも、どんどん細かく、美しくなくなってしまうかもしれない。しかしその場合でも、簡単なモデルから出発して、順々に近似の程度をあげていったとき、それぞれ既存のデータのどれをどこまで説明できるのかをモニターし、どの遺伝子がどのような意味で「例外」なのかを明らかにしていくことで、ゲノムや遺伝子の進化に洞察を加えていくことは可能だと思われるし、それこそが今後ゲノム配列解析学の進むべき道なのではないかと考えるのである。

6. 「世界は分けてもわからない」のか？

　生命は長い進化の過程で、多くの偶発的な外部の影響に対して、その場限りの対応を続けてきた結果、今日のような多様性を持つようになったと考えられる。そのような生命現象を詳細に理解するには、原理的アプローチでは自ずと限界があり、現象や個々の分子メカニズムの記述がその基本にならざるを得ない。実際、生命を理解するこれまでの数々の試みの中で、生命現象を遺伝子の振る舞いに還元して理解する分子生物学的アプローチのみが例外的な成功を収めてきたと言っても過言ではない。しかし、生命体を構成する全遺伝子が明らかになった今日、それらの遺伝子が織りなすネットワークという形で、どこまで生命現象を理解できるのか、たとえば生活習慣病等の複雑な疾病をどこまでうまく理解し、治療指針を得ることができるのかが、問われ始めている。たしかに、これまでのような要素還元主義一本槍ではどこかで行き詰まってしまうのかもしれない。しかし、それがどの段階になるのかは誰も答えることはできず、少なくとも他に適切な方法論がない以上は、試行錯誤的にやれるところまでやってみるしかないだろう。要素還元主義ではうまくいかない（ように見える）現象が見られるからと言って、短兵急に「世界は分けてもわからない」（福岡伸一氏の著書のタイトル）と結論してしまうのは、やはり現段階では適切ではないのではなかろうか。このようなことを書いたのは、ゲノム配列解析というものが、ある意味で遺伝子中心主義、要素還元主義の典型と言えなくもないからであり、ゲノム配列解析の未来を考えようとすると、避けては通れない問題であると考えるからである。

7. おわりに

　筆者が関わってきたタンパク質細胞内局在部位予測にまつわる研究の問題点を概観し、その中のいくつかの問題がゲノムを研究する上で本質的であることを指摘してきた。さらに、そこから話を飛躍させて、ゲノム（配列情報）科学の未来についても考察した。最後の議論に興味をもたれた読者は、筆者の過去のエッセイも参照されたい4)。もし、ゲノム配列解析学の未来が、ここで論じたような形になっていくのであれば、それをサポートする研究体制や、望ましい研究の方向性なども自ずと絞られてくるだろう。本稿が、日中の研究者やJSTなどの研究施策を扱う機関の方々にとって、少しでも参考になれば幸いである。

謝辞

草稿を読んで、適切な助言をくれた今井賢一郎氏（産総研）に感謝したい。

主要参考文献：

1) Nakai, K. and Kanehisa, M., Genomics 14, 897-911 (1991)
2) Nakai, K. and Horton, P., Trends Biochem. Sci. 24, 34-35 (1999)
3) Imai, K. and Nakai, K., Proteomics, under review (invited)
4) 中井謙太、蛋白質核酸酵素 51, 1704-1707 (2006).