GPU Coder

NVIDIA GPU 向けの CUDA コードを生成

GPU Coder は、最適化された CUDA^® コードを MATLAB コードや Simulink モデルから生成します。生成されたコードには、ディープラーニングや組み込みビジョン、レーダーおよび信号処理アルゴリズムの並列処理可能な部分の CUDA カーネルが含まれます。生成された CUDA をプロファイリングし、ボトルネックやパフォーマンス最適化の機会を特定できます。パフォーマンス向上のために、生成コードで NVIDIA^® TensorRT™ を呼び出すことができます。生成された CUDA は、ソースコードまたは静的/動的ライブラリとしてプロジェクトに統合し、NVIDIA Jetson™、NVIDIA DRIVE®、および NVIDIA Clara™ プラットフォームの組み込み GPU など、最新の NVIDIA GPU 向けにコンパイルできます。Jetson および DRIVE プラットフォームの周辺機器にアクセスし、手作業で記述した CUDA を生成コードに組み込むことができます。

GPU Coder では双方向のリンクが提供され、MATLAB コードと生成された CUDA 間をトレースできます (Embedded Coder^® を併用)。

MATLAB からの CUDA コードの生成

デスクトップ RTX カードから、データセンター、組み込みの Jetson や DRIVE プラットフォームに至るまで、広く利用されている NVIDIA GPU 上で MATLAB アルゴリズムから生成された CUDA コードをコンパイルおよび実行します。生成されたコードを無償で顧客に展開します。

霧修正アルゴリズムの CUDA コードの生成 (2:22)

ドキュメンテーション | 例

Simulink からの CUDA コードの生成

Simulink Coder を GPU Coder と共に使用して、Simulink モデルから CUDA コードを生成し、NVIDIA GPU に展開します。Simulink シミュレーションの計算量の多い部分を NVIDIA GPU 上で高速化します。

Simulink による NVIDIA GPU 向けディープラーニング: GPU Coder を使用した CUDA コードの生成 (3:29)

ドキュメンテーション | 例

NVIDIA Jetson および DRIVE への展開

GPU Coder は、生成されたコードの NVIDIA Jetson および DRIVE プラットフォームへの展開を自動化します。周辺機器にアクセスし、センサーデータを取得し、周辺機器のインターフェイスコードと共にアルゴリズムをボードに展開し、スタンドアロンでの実行を可能にします。

GPU Coder を使用したプロトタイピングおよび NVIDIA Drive、Jetson への展開 (2:54)

ドキュメンテーション | 例

Simulink の車両および車線検出アプリケーションの一部として使用する道路交通を示す 2 つのカメラビュー。

ディープラーニング用コードの生成

事前定義またはカスタマイズされたさまざまなディープラーニングネットワークを NVIDIA GPU に展開します。前処理と後処理用のコードを学習済みディープラーニングネットワークのコードと共に生成して、アルゴリズム全体を展開します。

Simulink による NVIDIA GPU 向けディープラーニング: ECG 信号の分類 (7:35)

ドキュメンテーション | 例

FP32 と INT8 データ型を使用した場合の 1 秒毎の画像数の増加を示す “Inference with ResNet-50” (ResNet-50 による推論) というタイトルの棒グラフ。

生成コードの最適化

GPU Coder では、メモリ管理、カーネル融合、および自動調整などの最適化が自動的に適用されます。INT8 または bfloat16 コードの生成によりメモリフットプリントを低減します。TensorRT との統合によりパフォーマンスがさらに高まります。

TensorRT を使用した NVIDIA GPU 上での歩行者検出 (1:34)

ドキュメンテーション | 例

生成されたコードのプロファイリング情報を示す GPU パフォーマンスアナライザーツールのレポート。

生成コードのプロファイリングと解析

GPU パフォーマンスアナライザーを使用して、生成された CUDA コードをプロファイリングし、実行速度とメモリフットプリントをさらに向上させる機会を特定します。

ドキュメンテーション | 例

設計パターンを使用してパフォーマンスを向上

ステンシル処理や削減などの設計パターンは、利用可能な場合には生成コードのパフォーマンスを向上させるために自動的に適用されます。また、特定のプラグマを使用して手動で呼び出すこともできます。

ドキュメンテーション | 例

MATLAB コードと生成された CUDA コード間の対話的な双方向のトレーサビリティを示す、コード生成レポート。

信号のロギング、パラメーターの調整、コード動作の検証

Simulink Coder を GPU Coder と共に使用して、リアルタイムで信号をロギングし、パラメーターを調整します。Embedded Coder の追加により、MATLAB と生成された CUDA コード間を対話的にトレースし、生成された CUDA コードの動作を SIL テストで数値的に検証します。

生成された CUDA コードと MATLAB ソースコード間でのトレース

ドキュメンテーション | 例

高速化のために GPU Coder と NVIDIA GPU を使用した ECG 予測アルゴリズムの Simulink モデル。

MATLAB および Simulink シミュレーションの高速化

生成した CUDA コードを MEX 関数として MATLAB コードから呼び出すと実行速度が向上します。Simulink Coder を GPU Coder と共に使用して、Simulink モデルに含まれる MATLAB Function ブロックの計算量の多い部分を NVIDIA GPU 上で高速化できます。

GPU Coder を使用した NVIDIA GPU 上でのレーダーシミュレーションの高速化 (3:24)

ドキュメンテーション | 例