第50号:融合研究分野
トップ  > 科学技術トピック>  第50号:融合研究分野 >  日本におけるバイオインフォマティクス:計算システム生物学を中心として

日本におけるバイオインフォマティクス:計算システム生物学を中心として

2010年11月10日

阿久津 達也

阿久津 達也(あくつ たつや):
京都大学 化学研究所 バイオインフォマティクスセンター 教授

1962年2月生まれ。1989年東京大学大学院 工学系研究科 情報工学専攻 博士課程修了(工学博士)。1989年通産省機械技術研究所研究員、1994年群馬大学工学部助教授、1996年東京大学医科学研究所助教授を経て、2001年10月より現職。バイオインフォマティクス、システム生物学、離散アルゴリズムの研究に従事。主な著書に、阿久津達也「バイオインフォマティクスの数理とアルゴリズム」共立出版(2007)、丸山修・阿久津達也「バイオインフォマティクス ―配列データ解析と構造予測―」朝倉書店(2007)。

1.はじめに

 バイオインフォマティクスには様々な側面があるが、日本においてもゲノム解析、進化、タンパク質構造解析などについて数多くの研究が行われている。その中でも、システム生物学の情報学的側面を担う計算システム生物学(computationalsystems biology)は日本が先駆的な業績をあげてきた分野であり、筆者の主要な研究分野の一つである。そこで、本稿では計算システム生物学を中心に日本のバイオインフォマティクスを紹介したい。なお、計算システム生物学についてすら筆者は幅広く日本の研究の現状を知っているわけではないので、網羅的な視点ではなく個人的な視点からの文章であることをお断りしておく。

2.日本におけるバイオインフォマティクスの発展

 日本におけるバイオインフォマティクス研究はバイオインフォマティクスという言葉が使われ出すよりはるか以前から生物物理学の研究者らにより行われており、現在でも、タンパク質立体構造解析は生物物理学の研究者らを中心に研究されている。一方、1980年代の第5世代コンピュータ開発計画で遺伝子情報処理が主要な応用分野の一つとして選択され注目されたこと、および、1991年よりヒトゲノム計画の一環として発足した文部省(当時)重点領域研究「ゲノム解析に伴う大量知識情報処理の研究」において情報系研究者の参入を促したことにより、情報系研究者もバイオインフォマティクスに参入し始め、研究者人口も徐々に増加していった。この重点領域研究の一環として1990年に始まったゲノム情報ワークショップは、バイオインフォマティクス分野の最古の国際会議の一つであり、現在では海外でも開催されるようになった(2010年は中国杭州で開催される)。さらに、バイオインフォマティクス関連の研究教育機関も次々と新設されてきた。まず、重点領域研究と連動して1991年に東京大学医科学研究所にヒトゲノム解析センターが設置された。2001年には京都大学化学研究所にバイオインフォマティクスセンターが、産業技術総合研究所に生命情報科学研究センター(現:生命情報工学研究センター)が設置された。2002年頃よりバイオインフォマティクス関連の専攻や学科も次々と新設され、北海道大学、東京大学、京都大学、奈良先端科学技術大学院大学、大阪大学、九州大学、慶応義塾大学、立命館大学などに設置されてきた。現在では研究教育機関の新設は一段落し、成熟期に入ってきたと考えられる。バイオインフォマティクスにおける重要な研究基盤としてデータベースがあげらるが、日本における主要なデータベースとして、米国NCBIのGenbank、欧州EMBLのデータベースと協力してDNA配列データの登録・管理を行う国立遺伝学研究所の日本DNAデータバンク(DDBJ)、国際協力のもので維持管理されているタンパク質立体構造データベースProtein Data Bankの一翼を担う大阪大学のPDBj、代謝ネットワークデータなどを始めとする独自のコンテンツを開発・維持している京都大学のKEGGがある。また、日本における様々なライフサイエンス関連のデータベースの統合窓口となり、かつ、各種データベースの保全を図ることを目的にライフサイエンス統合データベースセンターが2007年に発足し、活動を続けている。

 学会活動は日本生物物理学会、日本分子生物学会などの生物系の学会を中心に行われてきたが、専門の学会として1999年に日本バイオインフォマティクス学会が発足した。また、関連分野の学会として「計算機と化学・生物学の会」が1980年代より活動していたが、2000年より情報計算化学生物学会と改称し、より本格的に学会活動を行うようになった。日本バイオインフォマティクス学会と情報計算化学生物学会は2011年の年会を共同で開催する予定であり、交流を深めつつある。情報系の学会においても、人工知能学会に1998年に分子生物情報研究会が、情報処理学会に2005年にバイオ情報学研究会が発足し、地道な活動を続けている。

3.日本における計算システム生物学

 生物学の新たな潮流としてシステム生物学(Systems Biology)という言葉が定着しつつあるが、日本はシステム生物学発祥の地である。システム生物学は、生物をシステムととらえて、数理モデル化、シミュレーション、生物学実験などによる検証を繰り返すことにより、その機構を明らかにし、さらに創薬や医療に活かすことを目的とする学問である。システム生物学という言葉自体は以前より存在したが、それを定着させたのはソニーコンピュータサイエンス研究所の北野博士である。北野博士は2000年に第1回のシステム生物学国際会議を開催し、それを契機としてシステム生物学という言葉や方法論を国際的に定着させていった 1)。システム生物学自体は実験的研究が中心になりつつあり筆者はそれらの研究に疎いので、以下では計算機主体の研究、つまり、計算システム生物学について簡単に紹介する。

 計算システム生物学における主要研究課題の一つに細胞や生体の計算機シミュレーションがあるが、慶応義塾大学の富田教授らにより開発されたE-CELLはそのさきがけとなっている。その後、東京大学医科学研究所の宮野教授らによるCell Illustrator、九州工業大学の倉田教授らによるCADLIVE、前述の北野博士らによるCellDesignerなどが開発されている。また、細胞のみならず各種臓器までシミュレーションしようという研究も京都大学の野間教授(現立命館大学)らにより行われている。

 一方、遺伝子間の相互作用のなすネットワークを実験データから推定することもシステム生物学の主要課題の一つであり、やはり、2000年前後から活発に研究が行われてきた。この遺伝子ネットワーク推定に関して、筆者が前述の宮野教授らとともに離散的モデルを用いて行った研究、九州大学の岡本教授らによるS-systemという非線形微分方程式系を用いた研究、産業技術総合研究所の堀本博士らによるグラフィカルガウシアンモデルという統計的モデルを用いた研究は国際的にも先駆的なものになっている。

 計算システム生物学においてもデータベースは重要な研究基盤となるが前にも述べた京都大学の金久教授らにより開発されているKEGGは代謝ネットワークをはじめとして様々なネットワークデータや関連データを格納し、さらに解析のための各種ツールも提供しており、国際的にも有数の研究基盤となっている。一方、東京大学の有田准教授らも独自の代謝ネットワークの解析ツールなどを開発している。

 このように日本は計算システム生物学において、国際的にいくつもの先駆的な研究を行ってきたが、近年は諸外国で活発に研究が行われるようになったため、後塵を拝するようになってきた感じがするが、筆者の思い違いであって欲しい。

4.データ圧縮による生命の理解

 一通り日本における研究の紹介を終えたので、次に筆者の最近の研究について簡単に紹介したい。

 人間の遺伝情報、すなわち、人間の設計図は約32億文字からなるゲノム配列に書かれている。32億文字というと一見多いように見えるがCD-ROMにして一枚少々の情報量である。一方、一人の人間は60兆個の細胞から構成されていると言われている。つまりこれは大幅なデータ圧縮が行われているのである。筆者は以前からこのような大幅なデータ圧縮が可能となっている背景には数理的な原理があるはずだと考えており、それを解明することを研究の目標としてきた。しかし少し現実離れしたテーマであり、研究成果もなかなか出ないので、まずはデータ圧縮の応用から研究を始めてきた。

 バイオインフォマティクスにおける重要な問題として様々なデータの類似性を測る(例えば、配列アラインメントは配列データ間の類似性を図る手法の一つである)ということがあげられるが、この類似性の検出にデータ圧縮が利用できる。二つのデータX,Yがあったとしよう。もし、XとYが全く同じものであれば、YはXのコピーであるので、XとYをつなげたものを圧縮しても、単にXのみを圧縮しても圧縮後のサイズはほとんど同じになるはずである。一方、XとYが全く類似性のないデータである場合には、XとYをつなげたデータの圧縮後のサイズは、Xの圧縮後のサイズとYの圧縮後のサイズを足したものに近くなっているはずである。よって、よい圧縮アルゴリズムがあれば、それを用いてデータの類似性を測ることができることになる。この考え方は以前からあるものであり、Waterloo大学のMing Li教授らにより精緻な理論が作られ、配列データの比較などに応用されてきた。筆者らは、最近、この考え方をタンパク質立体構造、および、代謝ネットワークの比較に応用し、高速な比較を行うことに成功した 2)。

 しかしながら、筆者の本当の目的は生物のデータ圧縮であり、やはりネットワーク構造などの構造データに対する圧縮アルゴリズムの理論的研究から始めるべきであると考え、最近、最も簡単なネットワーク構造である木構造に関して、理論的保証のあるアルゴリズムの開発に成功した 3)。今後はこの結果をより一般的な構造データの圧縮に拡張していき、実際の生物データに適用し、圧縮の原理を探っていきたいと考えている。

5.中国との交流

 バイオインフォマティクスや計算システム生物学は近年、中国でも盛んに研究が行われており、国際会議も数多く開催されている。筆者も昨年は北京で開催されたAsia Pacific Bioinformatics Conference (APBC 2010)に参加し、今年は International Conference on Computational Systems Biology (ISB 2010)に参加し、さらに今年中に中国で開催される3件の国際会議(1件は香港)に参加する予定である。中国を訪れる度に、次々と作られる超高層ビルなどにより街が急速に発展していく様子に圧倒されるし、最近では研究レベルと層の厚さの急速な進展にも驚かされる。

 日中間の研究者レベルにおいても、地理的および文化的に近いこともあり様々な交流や共同研究が行われている。筆者も中国科学院の上海生命科学研究院の陳洛南教授らとの交流を深めており、また、筆者の研究室には現在、大学院生2名と研究生2名の中国人学生が在籍している。陳教授は長年に渡り日本で研究を行ってきたが、最近、研究基盤を中国に移し、システム生物学の重点研究室(Key Laboratory)を率いて多岐にわたって活発な研究活動を展開している。陳教授は日本語も流暢で日本の事情にも精通しているので、今後、バイオインフォマティクスおよびシステム生物学における日中の研究交流や研究協力のハブになる人物であると言える。

参考文献:

  1. Kitano, H., Science 295, 1662-1664 (2002)
  2. Hayashida, M. and Akutsu, T., BMC Systems Biology 4 (Suppl. 2), S13 (2010)
  3. Akutsu, T., Information Processing Letters 110, 815-820 (2010)