最新のリリースでは、このページがまだ翻訳されていません。 このページの最新版は英語でご覧になれます。

パフォーマンス

コード生成の問題をトラブルシューティングし、コード実行時間を改善して、生成コードのメモリ使用量を削減する

GPU Coder™ で生成されたコードが予想どおりに実行されない最もよくある 3 つの理由は、以下のとおりです。

  • CUDA® カーネルが作成されていない。

  • ホストからデバイスおよびデバイスからホストへのメモリ転送 (cudaMemcpy) によってパフォーマンスが抑制されている。

  • 並列化不足またはデバイスに問題がある。

この節では、これらの現象の一般的な原因について詳しく説明し、組み込みのスクリーナーを利用してこれらの問題を検出する方法を説明します。また、これらの問題に対処し、より効率的な CUDA コードを生成する方法についての情報も提供します。

トピック

ワークフロー

GPU Coder トラブルシューティング ワークフロー。

MATLAB コードおよび生成された CUDA コード間でのトレース

GPU で実行される MATLAB コードのセクションを強調表示する

カーネル解析

効率的な CUDA カーネルを生成するための推奨事項。

メモリ ボトルネック解析

GPU Coder を使用するとメモリ ボトルネックの問題が減る。

生成コードの実行プロファルの解析

指定した MATLAB アルゴリズムとその生成された CUDA コードについての SIL による詳細なプロファイリング。

NVIDIA Profiler による解析

NVIDIA Profiler (nvvp) から取得された情報を使用してパフォーマンスを改善します。

GPU Coder の制限

GPU Coder の現在の制限を確認する。

注目の例