gpucoder.matrixMatrixKernel

行列-行列演算を含む関数の最適化された GPU 実装

ページ内をすべて折りたたむ

構文

C = gpucoder.matrixMatrixKernel(fun,A,B)

C = gpucoder.matrixMatrixKernel(___,orientation)

C = gpucoder.matrixMatrixKernel(___,vectorizedSim)

説明

C = gpucoder.matrixMatrixKernel(fun,A,B) は、GEMM のような演算を含む関数からカーネルを生成します。たとえば、以下を使用して 2 つのイメージ間の特徴点をマッチさせます。

差の絶対値の和 (SAD) — F() = @(a,b)abs(a-b)
差の二乗の和 (SSD) — F() = @(a,b)(a-b).*(a-b)

C = gpucoder.matrixMatrixKernel(___,orientation) のオプション引数 orientation は、A および B 行列の向きを指定します。

C = gpucoder.matrixMatrixKernel(___,vectorizedSim) には、MATLAB^® シミュレーション時および CPU コード生成時におけるベクトル化された演算の使用を指定するオプションの引数 vectorizedSim があります。関数ハンドル fun はベクトル入力をサポートし、A から 1 つの行または列、B から 1 つの列または行を取り、arrayfun(FUN, A, B) と等価のベクトルを出力しなければなりません。

例

すべて折りたたむ

行列-行列乗算

この例では、シンプルな行列-行列乗算を実行し、matrixMatrixKernel 設計パターンを使用して、CUDA^® コードを生成します。

1 つのファイル内に、2 つの行列入力 f1 および f2 を受け入れるエントリポイント関数 matMul_nn を記述します。MATLAB 関数 @times を使用して、f1 および f2 を要素ごとに乗算します。@ 記号は、関数 times のハンドルを作成します。gpucoder.matrixMatrixKernel() ステートメントを挿入します。入力行列は転置しないため、'nn' オプションを使用します。

function scores = matMul_nn(f1, f2)
    scores = gpucoder.matrixMatrixKernel(@times, f1, f2, 'nn',true);
end

関数 codegen を使用して CUDA MEX 関数を生成します。

codegen -config coder.gpuConfig('mex') ...
    -args {ones(1024,1024,'double'),ones(1024,1024,'double')} ...
    -report matMul_nn

生成された CUDA コードは 2 つのカーネルを含みます。出力行列 scores を初期化するための matMul_nn_kernel1 と、times 演算を実行する matrixMatrixKernel です。以下は、生成コードのスニペットです。

  cudaMemcpy(*gpu_f2, cpu_f2, 8388608UL, cudaMemcpyHostToDevice);
  matMul_nn_kernel1<<<dim3(2048U, 1U, 1U), dim3(512U, 1U, 1U)>>>(*gpu_f2,
                                                                 *gpu_B);
  cudaMemcpy(*gpu_f1, cpu_f1, 8388608UL, cudaMemcpyHostToDevice);
  matrixMatrixKernel<<<1024U, 64U>>>(*gpu_f1, *gpu_B, *gpu_scores);
  cudaMemcpy(cpu_scores, *gpu_scores, 8388608UL, cudaMemcpyDeviceToHost);

入力引数

すべて折りたたむ

`fun` — 適用する関数
関数ハンドル

入力配列の要素に適用する関数。関数ハンドルとして指定します。fun は、ユーザー定義関数のハンドルです。行列 A から 1 つの行または列を、行列 B から 1 つの行または列を受け取り、入力と同じ型のベクトルを出力します。その後、出力ベクトルが合計され、C の単一のスカラー値が計算されます。

データ型: function_handle

`A`, `B` — 入力配列
配列

数値入力 A および B は、同じサイズか、互換性のあるサイズでなければなりません。たとえば、A が M 行 K 列の行列、B が K 行 N 列の行列の場合、C は M 行 N 列の行列になります。

`orientation` — 入力行列で実行される演算
'NN' (既定値) | 文字ベクトル | string

2 つの文字からなる文字ベクトルまたは string で、行列乗算の前に行列 A および B で実行される演算を示します。可能な値は、標準 ('N')、転置 ('T')、または複素共役転置 ('C') です。

以下の値が使用可能です。

'nn' - 行列 A および B は正規です。
'nt' - 行列 B は転置されます。
'tn' - 行列 A は転置されます。
'tt' - 行列 A および B の両方が転置されます。

`vectorizedSim` — ベクトル化された演算の使用
false (既定値) | true

MATLAB シミュレーションおよび CPU コード生成の際に、ベクトル化された演算を使用するかどうかを指定します。

出力引数

すべて折りたたむ

`C` — 出力配列
スカラー | ベクトル | 行列

積。スカラー、ベクトル、または行列として返されます。配列 D には、入力 A と同じ数の行と、入力 B と同じ数の列があります。

バージョン履歴

R2017b で導入

gpucoder.matrixMatrixKernel

構文

説明

例

行列-行列乗算

入力引数

`fun` — 適用する関数
関数ハンドル

`A`, `B` — 入力配列
配列

`orientation` — 入力行列で実行される演算
'NN' (既定値) | 文字ベクトル | string

`vectorizedSim` — ベクトル化された演算の使用
false (既定値) | true

出力引数

`C` — 出力配列
スカラー | ベクトル | 行列

バージョン履歴

参考

アプリ

関数

オブジェクト

トピック

gpucoder.matrixMatrixKernel

構文

説明

例

行列-行列乗算

入力引数

fun — 適用する関数 関数ハンドル

A, B — 入力配列 配列

orientation — 入力行列で実行される演算 'NN' (既定値) | 文字ベクトル | string

vectorizedSim — ベクトル化された演算の使用 false (既定値) | true

出力引数

C — 出力配列 スカラー | ベクトル | 行列

バージョン履歴

参考

アプリ

関数

オブジェクト

トピック

`fun` — 適用する関数
関数ハンドル

`A`, `B` — 入力配列
配列

`orientation` — 入力行列で実行される演算
'NN' (既定値) | 文字ベクトル | string

`vectorizedSim` — ベクトル化された演算の使用
false (既定値) | true

`C` — 出力配列
スカラー | ベクトル | 行列