MATLAB は、既存のビッグ データ ストレージにアクセスして統合し、利用可能なリソースに基づいてデータ処理のニーズに適応することで、ビッグデータに関する作業を簡素化します。
MATLAB を使用すると、以下を行うことができます。
- 従来のファイルシステム、クラウドベースのストレージ (AWS® S3、Azure® Blob)、SQL および NoSQL データベース、データ プラットフォームなど、さまざまなストレージからビッグデータにアクセスする
- 小規模なサンプルデータの機械学習モデルをクリーニング、解析、開発する
- アルゴリズムを書き換えずに、同じコードをスケールアップしてビッグデータに適用する
- ローカルマシン、従来の HPC クラスター、Spark™ クラスター、クラウド データ プラットフォームから、ニーズに合わせた処理能力を使用する
「MATLAB を使用した高性能コンピューティングにより、これまでは解析できなかったビッグデータの処理が可能になりました。そこから学びとったことを人間の活動が生態系の健全性に与える影響の理解につなげることで、海洋や陸地における人間の行いに関して責任ある判断ができるよう情報を提供しています。」
MATLAB および Simulink を使用したビッグデータ処理
データへのアクセス
MATLAB を使用して、大規模なファイルコレクション、データベース、データ プラットフォーム、およびクラウド ストレージ システムからデータを読み取ることができます。MATLAB のデータストアを使用すると、コンピューター 1 台分のメモリには収まらないデータや、複数ファイルに分散しているデータにアクセスできます。これらのデータストアは、各種のファイル形式 (CSV、Parquet、および MDF など) やストレージシステム (AWS S3、Azure Blob、HDFS、データベース、およびデータ プラットフォーム) をサポートしています。また、カスタムファイル形式用のデータストアを独自に作成することも可能です。
関連情報
- 画像
- Parquet ファイルおよび Avro ファイル
- Tabular テキスト、CSV、およびスプレッドシート
- MDF ファイル
- データベース (SQL、NoSQL)
- Databricks、Domino Data Lab、および Cloudera®
予測モデルの探索、クリーニング、変換、および開発
MATLAB を使用すると、ビッグデータに対するデータ解析やデータ エンジニアリングを効率的に行うことができます。MATLAB は Parquet ファイルの述語プッシュダウンをサポートしているため、ビッグデータをソースでフィルタリングできます。データを読み込んだ後は、異なるデータストアからのデータを変換および結合して、前処理やデータ エンジニアリングを行うことができます。
MATLAB の tall 配列は遅延評価フレームワークを使用しているため、ビッグデータに対してインメモリの table や timetable ベースのコードを書き換えることなく実行できます。tall 配列は、数百ものデータ操作、数学、統計、および機械学習機能をサポートしており、単純な統計解析やビッグデータに対する予測モデルの開発に使用できます。
関連情報
- tall 配列
- MATLAB のコードに 2 行追加してビッグデータで利用する (ブログ)
- データストアの変換と結合
ビッグデータ IT インフラストラクチャでの統合と実行
MATLAB は、既存のインフラストラクチャと統合することにより、ビッグデータを効率的に処理できます。並列処理を使用するだけでなく、デプロイ先の運用モードで、対話的に MATLAB コードをスケールアップして実行できます。ストリーミングやバッチ アプリケーションにより、無償で解析をデプロイできます。また、Databricks、Domino Data Lab、Google® BigQuery といった各種のクラウド データ プラットフォームでビッグデータを使用して MATLAB コードとモデルを実行できます。
