MATLABによる細胞リプログラミングのためのデータ誘導制御

著者 Indika Rajapakse 博士

「MATLAB は、細胞リプログラミングの仕組みを定義するネットワークを探索し、それをどのように活用してがん治療や再生医療を変革できるかを探るのに最適な環境です。」

化学療法は白血病やその他の癌と闘う上で最も強力な武器の一つですが、諸刃の剣でもあります。がん細胞を破壊する過程で、免疫システムも破壊されてしまうことがよくあります。この治療法を施した後、医師は多くの場合「治療を治療する」必要があり、免疫システムを再構築して患者の回復を助けるために骨髄移植を実施します。こうした移植には、適合するドナーを見つけることが容易でなく、適合が見つかったとしても、移植片対宿主病などの深刻な合併症が発生する可能性があるため、独自の課題が伴います。

今度は別の道を想像してみましょう。患者自身の皮膚細胞の一部を、必要な骨髄細胞に変換できたらどうなるでしょうか?ドナーを見つけることとドナー組織の拒絶反応という二重の課題が、すぐに解消されるでしょう。これが細胞リプログラミングの可能性であり、ミシガン大学における私の研究グループの研究の核心です。私たちは、ある種類の細胞を別の種類の細胞に直接変換する方法を開発しています。転写因子 (遺伝子のオン/オフを切り替えるのに役立つタンパク質) 細胞のアイデンティティをリセットします。

エンジニアリングの観点から見ると、これは古典的な制御問題として定式化できます。システムの現在の状態が皮膚細胞で、目標が骨髄細胞である場合、システムをどのように目標に導くのでしょうか?私たちはこれを ẋ = f(x, u) としてモデル化します。ここで、x は細胞の状態を表し、u は適用する転写因子の量とタイミングを表します。適切な因子セットを見つけ、それをいつ適用するかを判断するために、RNA シーケンス (RNA-Seq) データ、3D ゲノム構成データ、転写因子結合に関するデータなど、大量の生データを生成する実験を実行します。

私たちの研究の成功は、収集した複雑な生物学的データセット (多くの場合、大規模で、マトリックスベースで、高次元) を処理および分析する能力にかかっています。それはまた、遺伝子制御とゲノム構成の基礎となるネットワークを理解する私たちの能力にも依存します。私たちの研究では、遺伝子とゲノム領域がネットワークノードであり、それらの相互作用 (物理的な接触、制御の影響、共発現) がエッジを形成します。これらのネットワークは単純なグラフでも、より複雑なハイパーグラフでも構いません。どちらも自然にマトリックスとして表現されます。これらの行列は、アルゴリズムやモデルに渡されるコアデータ構造であり、その多くは固有値分解、特異値分解 (SVD)、その他の線形代数演算に依存しており、これらはすべて MATLAB^® で自然かつ効率的に処理されます。私たちは長年にわたりMATLABを利用して業務の基盤となるワークフローを構築してきましたが、最近では Biopipeline Designer アプリを使用して、これらの一部をバイオインフォマティクスパイプラインとして定義し、実行し始めました。

細胞リプログラミングとデータ誘導制御の出現に関する簡単な歴史

細胞をリプログラミングするという考えは数十年前から存在していましたが、細胞リプログラミング分野は2006年に、わずか4つの転写因子で成熟した皮膚細胞を多能性幹細胞のような状態に戻すことができることを山中伸弥氏が示したことで、劇的な進歩を遂げました。彼の人工多能性幹細胞の発見はノーベル賞を受賞しましたが、私の見解では、生物学のパラダイムを完全に変えました。興味深いことに、山中氏の研究は世界的な注目を集めましたが、これは細胞がそのアイデンティティと機能を根本的に変えることができることを実証した最初のものではありませんでした。約20年前、私が後にゲノム細胞生物学の博士研究員として勤務したフレッドハッチンソンがん研究センターで働いていた Harold Weintraub は、ある成熟細胞型が直接多能性状態を完全に回避して、別のものに変換されることを示しました。彼はその研究を 1987 年に発表しましたが、当時、この分野は彼の発見やその研究の素晴らしさを吸収する準備がまだ整っていませんでした。

私たちの研究室は、これらの初期の先駆者たちのビジョンを基に、直接的なリプログラミング、特にそれをより信頼性が高く予測可能なものにする方法に注力してきました。私たちの主な貢献の一つは、データ誘導制御 (図1) というフレームワークです。このアプローチは、数学的制御理論の原理を採用することで、細胞リプログラミングにおける転写因子の使用を最適化します。

制御理論と遺伝子発現ネットワークを使用して、転写因子が細胞リプログラミングを導く様子を示す図。 — 図 1.データ誘導制御の概要。制御方程式変数の概要 (A)、時系列 RNA-Seq データから決定されたエッジを持つ動的ネットワーク内のノードとしてのトポロジカルに関連するドメイン (TAD) の表現 (B)、細胞の状態をある領域から別の領域にプッシュする TF セットを識別する概念図 (C)。

データ誘導制御では、細胞周期全体にわたる複数の時点で遺伝子発現をサンプリングすることにより、細胞集団の自然な進化のモデルを構築します。複雑性を管理するために、トポロジカルに関連するドメイン (TAD) に基づいて遺伝子発現をクラスタ化し、その発現レベルのダイナミクスをモデル化します。(TAD は、外部領域よりも内部で物理的に相互作用する頻度が高いゲノム領域であり、個別の 3 次元構造単位を形成します。)これらの動的モデルを構築するために、ゲノムの異なる領域間の物理的な相互作用をマッピングする Hi-C データと、遺伝子発現が時間とともにどのように変化するかを追跡する RNA-Seq データを統合します (図 2)。これらのモデルを転写因子の結合部位および活性に関するデータと組み合わせることで、特定のリプログラミングタスクに最も適した転写因子候補を体系的に特定できるようになります。

細胞のリプログラミング解析をサポートするために 3D ゲノム構造と遺伝子発現データを組み合わせたビジュアル。 — 図 2.細胞リプログラミングでは、ゲノムの構造的構成 (TAD) と機能的側面の両方を理解するために、さまざまなデータタイプ (3D ゲノム構造の場合は Hi-C、遺伝子発現の場合は RNA-Seq) を統合する必要があります。

データ誘導制御を使用することで、以前にリプログラミング実験で検証された因子を特定することに成功しました。さらに重要なことは、潜在的に強力な新しい組み合わせを特定するためにこれを使用できたことです。MATLABのマトリックス機能と視覚化機能は、この研究において貴重であることが証明されており、制御アルゴリズムの基礎となる複雑な数学的演算を効率的に処理し、結果として得られる高次元の生物学的データを解釈することができます。

ハイパーグラフ解析とバイオインフォマティクスパイプラインの合理化

データ誘導制御は遺伝子発現のダイナミクスをモデル化する方法を提供しますが、それらのダイナミクスを説明するには、単純なペアワイズモデルを超えた制御相互作用を捉える必要があることがよくあります。多くの生物学的相互作用には、2 つの細胞成分だけでなく、多くの細胞成分が同時に関与します。たとえば、遺伝子制御には、ゲノムのエンハンサー領域とプロモーター領域に複数の転写因子とコアクチベーターが協調して結合することがしばしば必要になります。関係を要素のペア間の接続として表す標準的なネットワークモデルでは、このような多方向の相互作用を適切に捉えることができません。この複雑さに対処するために、私たちの研究室は MATLAB で高次構造を解析および視覚化するための公開ツールボックスである Hypergraph Analysis Toolbox (HAT) を開発しました。HAT を使用すると、研究者はハイパーグラフを構築、視覚化、分析できます。ハイパーグラフとは、単一の接続 (ハイパーエッジ) で複数のノードをリンクし、複雑な生物システムにおける多方向の相互作用を正確に表す数学的構造です。この機能は細胞リプログラミングにおいて特に価値があり、遺伝子制御ネットワークとクロマチン相互作用の複雑なダイナミクスを理解することで、ある細胞タイプを別の細胞タイプに変換するための最適な介入ポイントを明らかにすることができます。HAT は、ペアワイズネットワークモデルでは確認できない重要な調節モジュールと制御ポイントを識別するのに役立ち、効果的なリプログラミング戦略を設計する能力を向上させます。

ハイパーグラフ分析は、多くの場合、マルチステップのプロセスまたはパイプラインのコンテキスト内で実行されます。当社の実験パイプラインには通常、シーケンシングプラットフォームからの生データの収集、参照ゲノムへのアライメント、フィルタリング、およびその他の下流のステップが含まれます。Biopipeline Designer アプリを使用すると、これらのプロセスを効率化できます (図 3)。たとえば、データのシーケンスから始めて、それを整列させ、遺伝子発現を定量化し、フィルタリングと正規化を実行し、細胞の識別や分類、リプログラミングの進行状況の追跡、介入のガイドに使用できる生物学的に意味のある特徴 (シグネチャ) を抽出するパイプラインを構築できます。確立されたバイオインフォマティクスツールとカスタム開発されたコードの両方を統合された分析パイプラインに接続し、エンドツーエンドのバイオインフォマティクスワークフローをインタラクティブに構築および実行できます。さらに、HAT 関数を含むあらゆるMATLAB関数を表すカスタムブロックを作成し、一般的なバイオインフォマティクス操作用の事前構築済みブロックと統合することもできます。

モジュール式バイオインフォマティクスワークフローを表示するMATLABの Biopipeline Designer アプリのスクリーンショット。 — 図 3.Biopipeline Designer アプリ。

このアプローチは、遺伝子発現解析のために RNA-Seq データを処理する場合に特に強力です。このデータは、細胞の状態とリプログラミングのダイナミクスを理解する上で非常に重要です。Biopipeline Designer アプリを使用すると、完成したパイプラインを最小限の変更で共有したり、さまざまなデータタイプに合わせて調整したりできるため、時間を節約し、再現性を確保できます。反復的な実験と分析が不可欠な細胞リプログラミング研究では、計算モデルと制御戦略を改良するために、さまざまなパラメータを使用して分析を迅速に調整および再実行する機能に依存しています。

教室における MATLAB と数理生物学

私たちの研究室では、ほぼすべての作業にMATLAB を使用しています。この哲学は大学院レベルの指導にも及んでおり、私はそこで生物学的ネットワークの数学とデータの数学のコースを教えています。これらのコースでは、スペクトルグラフ理論、ネットワーク制御可能性、SVD、確率モデリング、ニューラルネットワークなどの重要な概念を取り上げます。これらはすべて、 MATLABを使用して生物学的データセットに適用されます。

可能な場合、MathWorksの共同創設者でありMATLABの開発者であるCleve Moler氏によるゲスト講義を取り入れています。彼の講演「SVDが宇宙を救った方法」は、私の学生たちに刺激を与えると同時に、線形代数が科学計算に与える深い影響を示しています。

現在の進展と今後の展望

現在のアプローチでは、ペアワイズのマッピングに主にHi-Cデータに依存してきましたが、私たちの研究室では、クロマチン相互作用の解明とTADの特定を目的として、オックスフォード・ナノポア・テクノロジーズのロングリード・シーケンシング技術を統合し、クロマチン構造 (細胞核内でDNAがタンパク質とパッケージ化される仕組み) の理解を深めることに取り組んでいます。従来のショートリードシーケンシングとは異なり、同社のPore-C法は多方向クロマチン相互作用とエピジェネティック修飾を明らかにし、3Dゲノム構造のより包括的なビューを提供します (図4)。この進歩により、データ処理ワークフローの適応が必要になるため、より複雑なデータセットの管理と分析には Biopipeline Designer を使用する予定です。

Hi-CとPore-Cを用いたクロマチンコンタクトマップの視覚的比較。Hi-Cパネルは、4番染色体上のペアワイズ相互作用とTAD境界のヒートマップを示しています。Pore-C パネルは、ゲノム領域全体にわたるシーケンスワークフローとハイパーグラフベースの多方向コンタクトを示します。 — 図 4.Hi-C および Pore-C テクノロジーを使用して生成されたゲノム全体の接触マップの比較。

また、データ誘導制御フレームワークを拡張してハイパーグラフ表現を組み込むことで、より高次の遺伝子制御相互作用をより効果的にモデル化できるようにしています。さらに、集団レベルのリプログラミングを超えて、単一細胞レベルのリプログラミングを組み込むことで、リプログラミングの成功率を向上させることを計画しています。私たちはまた、組織の製造にも目を向けており、再プログラムされた細胞から機能的な組織を組み立てる可能性を模索しています。これらの取り組みをサポートするために、当社の長期ビジョンには、必要なロボットシステムのデジタルツインを Simulink^® でモデル化し、シミュレーションする、完全に自動化された実験室システムの開発が含まれています。

研究者が皮膚細胞を採取し、それをリプログラミングし、それを患者に再導入することを議論するとき、それはSFのように聞こえるかもしれません。SF作家アーサー・C・クラークは、「十分に進歩した技術は魔法と区別がつかない」という有名な言葉を残しています。この精神において、 MATLABツールは、この「魔法」を現実のものにするために不可欠であると私は信じています。

著者について

Rajapakse 博士は、ミシガン大学医学部の計算医学およびバイオインフォマティクスの教授であり、ミシガン大学文学・科学・芸術学部の数学の教授でもあります。彼は2012年にフレッドハッチンソンがん研究センターでゲノム細胞生物学の博士研究員を修了しました。彼はまた、Smale Institute のメンバーであり、iReprogram, Inc. の最高科学責任者兼共同設立者でもあります。彼の研究対象には、細胞リプログラミング、デジタル生物学、データ誘導学習と高次構造の制御、同期の数学などがあります。

公開年 2025

使用製品

Bioinformatics Toolbox

詳細

Biopipeline Designer - ドキュメンテーション
HAT:Hypergraph Analysis Toolbox - File Exchange