MATLAB は、既存のビッグ データ ストレージにアクセスして統合し、利用可能なリソースに基づいてデータ処理のニーズに適応することで、ビッグデータに関する作業を簡素化します。
MATLAB を使用すると、以下を行うことができます。
- 従来のファイルシステム、クラウドベースのストレージ (AWS® S3、Azure® Blob)、SQL および NoSQL データベース、データ プラットフォームなど、さまざまなストレージからビッグデータにアクセスする
- 小規模なサンプルデータの機械学習モデルをクリーニング、解析、開発する
- アルゴリズムを書き換えずに、同じコードをスケールアップしてビッグデータに適用する
- ローカルマシン、従来の HPC クラスター、Spark™ クラスター、クラウド データ プラットフォームから、ニーズに合わせた処理能力を使用する
MATLAB および Simulink を使用したビッグデータ処理
データへのアクセス
MATLAB を使用して、大規模なファイルコレクション、データベース、データ プラットフォーム、およびクラウド ストレージ システムからデータを読み取ることができます。MATLAB のデータストアを使用すると、コンピューター 1 台分のメモリには収まらないデータや、複数ファイルに分散しているデータにアクセスできます。これらのデータストアは、各種のファイル形式 (CSV、Parquet、および MDF など) やストレージシステム (AWS S3、Azure Blob、HDFS、データベース、およびデータ プラットフォーム) をサポートしています。また、カスタムファイル形式用のデータストアを独自に作成することも可能です。
関連情報
- 画像
- Parquet ファイルおよび Avro ファイル
- Tabular テキスト、CSV、およびスプレッドシート
- MDF ファイル
- データベース (SQL、NoSQL)
- Databricks、Domino Data Lab、および Cloudera®
予測モデルの探索、クリーニング、変換、および開発
MATLAB を使用すると、ビッグデータに対するデータ解析やデータ エンジニアリングを効率的に行うことができます。MATLAB は Parquet ファイルの述語プッシュダウンをサポートしているため、ビッグデータをソースでフィルタリングできます。データを読み込んだ後は、異なるデータストアからのデータを変換および結合して、前処理やデータ エンジニアリングを行うことができます。
MATLAB の tall 配列は遅延評価フレームワークを使用しているため、ビッグデータに対してインメモリの table や timetable ベースのコードを書き換えることなく実行できます。tall 配列は、数百ものデータ操作、数学、統計、および機械学習機能をサポートしており、単純な統計解析やビッグデータに対する予測モデルの開発に使用できます。
関連情報
- tall 配列
- MATLAB のコードに 2 行追加してビッグデータで利用する (ブログ)
- データストアの変換と結合
ビッグデータ IT インフラストラクチャでの統合と実行
MATLAB は、既存のインフラストラクチャと統合することにより、ビッグデータを効率的に処理できます。並列処理を使用するだけでなく、デプロイ先の運用モードで、対話的に MATLAB コードをスケールアップして実行できます。ストリーミングやバッチ アプリケーションにより、無償で解析をデプロイできます。また、Databricks、Domino Data Lab、Google® BigQuery といった各種のクラウド データ プラットフォームでビッグデータを使用して MATLAB コードとモデルを実行できます。