第167号
トップ  > 科学技術トピック>  第167号 >  謎多き新型肺炎の予測モデル

謎多き新型肺炎の予測モデル

2020年8月04日 曹然(『中国新聞週刊』記者)、神部明果(翻訳)

「予測モデルは本来、天気予報のように感染状況を正確に予測することを目的としたものではない。むしろ意思決定の参考になり得るという点に価値がある」

 新型コロナウイルスに関する科学、政策および社会的討論で、感染症の流行を予測する数理モデルは、議論の場を頻繁に行き交う霊のような存在だ。政府はこのモデルに基づき感染症対策の策定や感染動向の予測判断をおこない、研究者はウイルスの伝播能力の分析や感染防止システムの評価にモデルを利用する。一方、世論はモデルが指し示す膨大な感染者・死亡者数にしばしば驚愕し、モデルごとに異なる予測結果を前にして途方に暮れている状態だ。

 国連アフリカ経済委員会は今年4月、英国の公立研究大学であるインペリアル・カレッジ・ロンドン〔以下、ICL〕のモデルをレポートの中で引用し、アフリカでは最大300万人が新型肺炎により死亡するおそれがあると述べた。アフリカの100名を超える有識者はこれを受けて、より効果的な感染症対策を連名でよびかけた。

 実のところ、ICLのモデルは、アフリカがソーシャルディスタンスなどの有効な感染対策を実施しなかった場合の感染動向であり、死亡者数を上記のとおり最大で300万人、最小で30万人と予測していた。しかし、データ発表の時点で、すでにアフリカの20カ国以上で全国的なロックダウン〔都市封鎖〕が実施されていた。

「積極的な感染対策を講じた場合、実際の結果は違ったものになる」。南アフリカのウィットウォーターズランド大学医学部の公共衛生専門家であるサラ·ニワウト氏はこう語る。また、ロンドン大学衛生熱帯医学大学院〔以下、LSHTM〕は4月中旬に別のモデルを発表し、アフリカ諸国の積極的な対策措置は死亡率を最大75%引き下げることが可能と指摘した。

 疫学や生物統計学などの専門家にとっては、モデルデータの背景にある研究目的、モデルの構築方法、パラメータ推定および完全な結論のほうが、一見ショッキングな個々の数字よりも注目に値するものだ。しかし、政府や一般大衆はこうしたモデルのデータを安易に過信するときもあれば、取るに足りないものとして顧みないときもある。

 アフリカの感染対策状況を追い続けてきたニワウト氏は現在、どんなモデルのデータにも注目していない。ハーバード大学の疫学者ヨナタン·グラッド助教は、「我々が常に念頭に置いておくべきなのは、予測モデルは本来、天気予報のように感染状況を正確に予測することを目的としたものではないということ。むしろ政策決定の参考になり得るという点に価値がある」と述べている。

image

4月7日、南アフリカのケープタウンで現地住民を一斉検査する作業員。写真/ロイター

最も有効なモデルとは

 新型肺炎が武漢で蔓延しだしたころ、フェデリコ2世・ナポリ大学の数学者シアトス氏ら欧州の研究者は、予測モデルをもとに前例のないこの感染症の研究に着手し、SCI〔科学技術分野の学術データベース〕収録誌にピアレビューと呼ばれる査読論文を複数発表してきた。

 予測モデルがこの100年あまりの間に発展したおかげで、新型肺炎の発生から間もない、かつウイルスの生物学的特徴について完全に未知の段階でも疫学モデルを構築することができた。これは健康な人間(感受性集団)がウイルスに感染し、臨床症状が現れてから最終的な回復または死亡に至るまでのプロセスを解く鍵がすでに解明されているためだ。

 健康、感染、回復の各段階に属する集団の消長がウイルスの周期的な流行と後退を決定づける。この法則に基づき「感染症発生初期に構築されたモデルは、データ予測の面で正確さに欠けるものの、信頼できる動向分析となる」とシアトス氏は語る。

 同氏が採用したのは最も古典的なSIRモデルだ。このモデルでは人々を未感染者S〔Susceptible〕、感染者I〔Infected〕、回復者R〔Recovered〕に分け、ウイルスの伝播能力と感染防止対策に関する仮説を、集団があるグループから別のグループへと推移していく数学的法則に当てはめることで、ウイルスの感染率とピーク値の範囲を算出する。中国が現在、米国疾病予防管理センター(CDC)と共同でモニタリングしている12の新型肺炎感染予測モデルのうち、5つがSIRモデルだ。

 シアトス氏によれば「SIRモデルは比較的シンプルで、一般大衆の間でウイルスがどのように流行するかを短期間で十分にシミュレーションできることが証明されている」。他のモデルと比較した場合のSIRモデルの最大の強みは基本的変数が3~4個のみという点だという。「校正が必要なパラメータの数が最も少ないという点が、データ量が少ない感染症発生の初期段階では非常に重要だ」

 シアトス氏のいう他のモデルとは主に統計学モデルであり、そのうちホワイトハウスの引用する米ワシントン大学保険指標評価研究所(以下、IHME)のモデルが最も有名だが、同時に多くの議論を呼んでもいる。同研究所は、世界各地における新型肺炎感染爆発のデータを研究しており、そうした既存データと、米国の人口ならびに疾病の伝播および感染症対策に関する仮説をもとに、米国および米国各州の流行曲線を推定している。

 IHMEはこうした統計学モデルのほうが正確だとみる。「主としてリアルワールドデータ〔RWD〕に依拠しており、疾病がどう伝播するかに関する仮説ではない」からだ。SIRモデルの利用者は、新型コロナウイルスの特性を仮説でしかとらえていないため必ず判断を誤る――事実、英国政府が引用した「6割の人に感染の可能性あり」というICLのモデルは、インフルエンザを対象に設計されたSIRモデルに新型コロナウイルスを当てはめただけのものだ、というのがIHMEの考えだ。

 ところが、4月に入り米国の感染者数が爆発的増加をみせると、各州のピーク患者数および病床数のひっ迫に関するIHMEの予測にもたびたび誤りが生じた。IHMEも「モデルの不確定性」を事前に考慮するのは困難であり、しかもこうした不確定性は高めに出ることもあれば低めに出ることもあると認めている。

 一部の専門家は、これは統計学モデルの「実データ」に対する依存度と関係していると指摘する。感染爆発の当初、各大型モデルでは主に中国のデータを利用していた。しかし、当時の中国のデータは無症状感染者を統計に含めていなかった。このため確定症例数とそれ以外のデータとの比率に関しては、必ずしもウイルスの真の伝播能力を示していなかったのだ。

「新型コロナウイルスが蔓延し始めたころ、感染者数、死亡数などのデータは、検査不足、検査結果の誤り、報告の遅延、記録漏れといった要素の制約をたびたび受けた」。LSHTMの医療データ専門家ニコラス・P・ジュエル氏は新型コロナウイルス予測モデルの利点と欠点を分析した論文でこう指摘している。独自の理論をもち、基本変数の少ない数理モデルと比べ、統計学モデルが初期段階のデータ不足から受ける影響はより深刻だという。

 IHMEのモデルは今年5月上旬に大幅な修正を経て再び公開された。新たなモデルには統計学のモデリング方法と感染伝播経路を組み合わせた混合モデルが採用され、両モデルの長所を利用し、疾病伝播モデルの結果と統計モデルの結果を対比させている。

 一方でSIRモデル作成者の間でも論争が起こった。最も基本的なSIRモデルでは上述のとおり未感染者、感染者および回復者という3つの基本変数しか設定していないため、新型コロナウイルスの潜伏期間における伝播状況を反映させることが難しく、死亡率に対する研究者の関心に応えきれない。そのため、ある研究者は潜伏期間にある感染者E(Exposed)を追加したSEIRモデルの採用を提唱している。シアトス氏らも現モデルに死亡者Dを基本変数として加えたSIRDモデルを作り出した。ジュエル氏はこれに関し、疫学的視点から観察でき、感染症の伝播上の特徴を反映している基本的変数を一部追加することは、新型肺炎の感染状況をより適切に分析するうえで有利だと述べる。

 だが、著名科学誌『ネイチャー』の関連誌『ネイチャーメディシン』が4月22日に掲載した伊トレント大学ジュリア・ジョルダーノ教授の研究チームの論文で、SIRモデルの複雑化は頂点に達してしまった。同論文は新型肺炎のそれまでの研究成果をもとに、ウイルス伝播の各段階を代表する8種の集団をすべて基本変数に組み込んだSIDARTHEモデルを打ち立てた。この8種の変数の内訳は、未感染者(S)、無症状感染者(I)、無症状確定診断者(D)、症状のある感染者(A)、症状のある確定診断者(R)、重症者(T)、回復者(H)および死亡者(E)となっている。

「SIDARTHEモデルが他と比べて複雑で全面的なのは間違いない。なぜならこのモデルは感染予測のみを目的としていないからだ」とジョルダーノ氏は説明する。同モデルの主な目的は政策決定者に有効なツールを提供することにあり、様々な感染防止施策が、その複合的実施も含めて、各々どのように感染動向に影響するのかを比較するのに資するという。

 しかし、多くの研究者はこのSIDARTHEモデルを評価していない。シアトス氏は、複雑すぎるモデルは必ず「次元の呪い〔説明変数が多すぎて予測精度が落ちること〕」に見舞われる――つまり1つのモデルの中であまりに多くのパラメータを校正することは困難だという。ジュエル氏も、複雑なモデルの計算過程で重要データに漏れがあれば、シンプルなモデルよりさらに信頼性の低い結果が導き出されると指摘する。「微小なミスが大きな災いにつながる。複雑なモデルは事実誤認を招き、重大な見落としを発見するのがさらに難しくなる」とジュエル氏は言う。

 米ジョンズ・ホプキンズ大学の疫学者ケイトリン・リバーズ氏は次のようにみる。感染爆発が始まったばかりの段階では、どのような疫学または統計学モデルが有効なのか分からないし、SIRモデルのような代表的モデルをどう改良したらよいのかも分からない。疫学のモデリング方式をめぐる論争は多くの場合、この点に端を発している。

人間の行為が最も予測困難

 オックスフォード大学スネトラ・グプタ教授のチームは今年4月、自分たちのモデルが以前に導き出した予測結果を血清検査データに基づいて覆した。

 同チームは3月下旬、新型コロナウイルス感染者のうち入院治療が必要なのは0.1~1%のみという仮説を前提に、SIRモデルを運用し英国およびイタリアの重症患者数と死亡者数を分析した。さらにこの時のモデルでは、3月19日までに英国では36~68%の国民が、またイタリアでは3月6日までに60~80%の国民が新型肺炎に感染すると予測していた。ところが1カ月後の血清検査結果は、英国とイタリアにおける新型コロナウイルスの全感染者数の割合はいずれも10%を下回る可能性を示唆していた。

 前掲のサラ·ニワウト氏は、グプタチームの問題はある意味典型的だと述べた。「予測結果の公表を急ぐあまり、重要データに対する仮説に厳密性を欠いているモデルが多い」。グプタチームが発表した論文もそうだが、なぜその仮説を採用したのかを研究者たちがほとんど説明していないということだ。

 予測モデルは本質的には一組の数学公式であり、どの重要項目の入力値であってもそれがわずかにでも変化すれば、まるで異なる結果が導き出される。ところが新型コロナウイルスに関するモデルでは、当初ほぼすべての数値が不確定なものだった。ウイルス自体の生物学的特徴をはじめ、免疫などの人類生物学的特徴、さらには集団の接触といった社会の機能方法や医療体制のキャパシティなど、すべてにおいて数多くの変数が存在していた。

 ICLのモデルに基づく英国の感染状況予測を例に挙げると、モデルの基本再生産数(R0)が2であり、最も厳格な社会的隔離措置が講じられた場合、感染状況としては数千人の死亡者にとどまるが、R0が2.6かつ社会的隔離措置が講じられなかった場合、死者数は55万人に達するという。この両者の差は非常に大きく、後者は前者の100倍以上になっている。

 前掲のジュエル氏はこうした重要パラメータに対する推定を「重要仮説」と呼ぶ。死亡率と感染率は最も難しい重要仮説である。前者は実データの裏付けがとれないし、後者は人間の行為という把握困難な事象と向き合う必要がある。

 死亡率よりさらに把握困難な変数が基本再生産数(R0)だ。基本再生産数は外的介入がなく、かつすべての人に免疫がない状況で、1人の感染者がウイルスを平均で何人に感染させるかを表す。基本再生産数が低いほど、ウイルスの伝播能力は弱いことになる。基本再生産数は感染状況の周期的変化に伴い変わるため、研究者は接触率、感染率、接触量、感染時間などの要素を計算し、新型コロナウイルスの基本再生産数を確定する必要がある。

 平均接触率は各感染者が一定期間に平均で何人と接触するかを表したものだが、これは各個人の生活環境や社交習慣に左右される。また、接触ごとの感染率は「不均衡に変化する」と専門家は考えている。しかし、新型コロナウイルスは「1人につき何例」というように規則どおりに感染していくわけではない。多数の二次感染者を引き起こす「スーパー・スプレッダー」の登場は予測モデルを大きく乱すものであり、イタリア・ロンバルディア州の病院、韓国の新興宗教団体「新天地」の教会、米国マサチューセッツ州の生物学学会でのクラスター発生などがその例だ。

 ICLやグプタチームのモデルは、いずれもウイルスが一定の速度で標本(サンプル)の間に均質に伝播し、症状が違っても感染能力に差はなく、集団ごとの感染率にも差がないと想定していた。

 この他、一部の研究者が接触ごとの感染量と感染持続時間の計算を試みた際には、ウイルス生物学および免疫学領域の研究の助けがやはり必要になった。しかし、感染者の体内でウイルスが存続する時間、潜伏期間内のどのタイミングで感染力が発生するかについては、長らく諸説紛々として結論が出ていない。

 モデルのパラメータ推定の際に最も予測困難なのがやはり人間の行為だ。ノースカロライナ州立大学のトゥフェクチ准教授は、一部のモデルは感染率を必ずしも高く予測しすぎているわけではないと指摘する。そうではなく、モデルの予測した結果が社会や一般大衆の恐怖心を呼び起こし、厳格なロックダウンの実施にもつながるため、ウイルス伝播の可能性が直接遮断されるということだ。

 予測モデルは、専門家にとって感染状況を判断する唯一の基準ではない。しかし、政府にとっては、感染症の発生初期ではきわめて数が少ない、科学的根拠をもった参考情報の1つだ。また一般大衆にとっては多くの場合、最も効果的な警告になる。

 ジョルダーノ氏は、現地のデータに基づく適切な校正はすべてのモデルに必要であり、ときには感染率と検査率に関連する一部の重要パラメータを妥当な時期に「瞬時に変更」し、感染防止対策の変更につなげていく必要があると述べた。

 現在、米国のノースカロライナ州、イリノイ州、カリフォルニア州などはすでに複数のモデルを政策決定の根拠として使用し始めており、しかも感染防止対策が変われば参考モデルも新しくするつもりだ。一部の専門家は「次世代型モデル」の構築を呼びかけており、それはもはや感染状況に対する長期的で概要的な予測にとどまるものではなく、地方政府の具体的な感染防止対策のために、より精緻なレファレンスを提供可能にするものだ。

 米コロンビア大学は直感的でインタラクティブなモデルをグラフ形式で発表した。社会隔離政策の違いをふまえて、米国のどの地域の医療体制がどのタイミングで限界に到達するかを専門的に予測したものだ。しかし、この予測プロジェクトも、データ不足や変数の多さで仮説がたてづらいという苦しみを嫌というほど味わっている。

image

5月11日、ロシアのクラスノゴルスクにある展示会施設では、新型肺炎に対応する臨時病院の工事が進んでいた。写真/スプートニク


※本稿は『月刊中国ニュース』2020年8月号(Vol.102)より転載したものである。