MATLAB によるビッグデータ処理

ビッグデータ予測モデルの探索、解析、および開発

MATLAB は、既存のビッグデータストレージにアクセスして統合し、利用可能なリソースに基づいてデータ処理のニーズに適応することで、ビッグデータに関する作業を簡素化します。

MATLAB を使用すると、以下を行うことができます。

従来のファイルシステム、クラウドベースのストレージ (AWS^® S3、Azure^® Blob)、SQL および NoSQL データベース、データプラットフォームなど、さまざまなストレージからビッグデータにアクセスする
小規模なサンプルデータの機械学習モデルをクリーニング、解析、開発する
アルゴリズムを書き換えずに、同じコードをスケールアップしてビッグデータに適用する
ローカルマシン、従来の HPC クラスター、Spark™ クラスター、クラウドデータプラットフォームから、ニーズに合わせた処理能力を使用する

「MATLAB を使用した高性能コンピューティングにより、これまでは解析できなかったビッグデータの処理が可能になりました。そこから学びとったことを人間の活動が生態系の健全性に与える影響の理解につなげることで、海洋や陸地における人間の行いに関して責任ある判断ができるよう情報を提供しています。」
Dr. Christopher Clark, Cornell University

MATLAB および Simulink を使用したビッグデータ処理

ビッグデータに MATLAB を使用すべき理由

MATLAB の tall 配列の活用

MATLAB と Databricks の連携

データへのアクセス

MATLAB を使用して、大規模なファイルコレクション、データベース、データプラットフォーム、およびクラウドストレージシステムからデータを読み取ることができます。MATLAB のデータストアを使用すると、コンピューター 1 台分のメモリには収まらないデータや、複数ファイルに分散しているデータにアクセスできます。これらのデータストアは、各種のファイル形式 (CSV、Parquet、および MDF など) やストレージシステム (AWS S3、Azure Blob、HDFS、データベース、およびデータプラットフォーム) をサポートしています。また、カスタムファイル形式用のデータストアを独自に作成することも可能です。

関連情報

画像
Parquet ファイルおよび Avro ファイル
Tabular テキスト、CSV、およびスプレッドシート
MDF ファイル
データベース (SQL、NoSQL)
Databricks、Domino Data Lab、および Cloudera^®

予測モデルの探索、クリーニング、変換、および開発

MATLAB を使用すると、ビッグデータに対するデータ解析やデータエンジニアリングを効率的に行うことができます。MATLAB は Parquet ファイルの述語プッシュダウンをサポートしているため、ビッグデータをソースでフィルタリングできます。データを読み込んだ後は、異なるデータストアからのデータを変換および結合して、前処理やデータエンジニアリングを行うことができます。

MATLAB の tall 配列は遅延評価フレームワークを使用しているため、ビッグデータに対してインメモリの table や timetable ベースのコードを書き換えることなく実行できます。tall 配列は、数百ものデータ操作、数学、統計、および機械学習機能をサポートしており、単純な統計解析やビッグデータに対する予測モデルの開発に使用できます。

関連情報

ビッグデータ IT インフラストラクチャでの統合と実行

MATLAB は、既存のインフラストラクチャと統合することにより、ビッグデータを効率的に処理できます。並列処理を使用するだけでなく、デプロイ先の運用モードで、対話的に MATLAB コードをスケールアップして実行できます。ストリーミングやバッチアプリケーションにより、無償で解析をデプロイできます。また、Databricks、Domino Data Lab、Google® BigQuery といった各種のクラウドデータプラットフォームでビッグデータを使用して MATLAB コードとモデルを実行できます。

関連情報