parallel.gpu.CUDAKernel

GPU 上で実行可能なカーネル

説明

CUDAKernel オブジェクトは GPU 上で実行可能な CUDA^® カーネルを表します。CU および PTX ファイルからカーネルを作成します。CUDAKernel オブジェクトの作成および使用方法の例については、GPU での CUDA または PTX コードの実行を参照してください。

メモ

CUDAKernel オブジェクトに対し save または load を実行することはできません。

作成

構文

kern = parallel.gpu.CUDAKernel(ptxFile,cuFile)

kern = parallel.gpu.CUDAKernel(ptxFile,cuFile,func)

kern = parallel.gpu.CUDAKernel(ptxFile,cProto)

kern = parallel.gpu.CUDAKernel(ptxFile,cProto,func)

説明

kern = parallel.gpu.CUDAKernel(ptxFile,cuFile) は、PTX コード ptxFile と CUDA ソースファイル cuFile を使用して CUDAKernel オブジェクトを作成します。PTX ファイルは単一のエントリポイントのみを含む必要があります。

kern を入力として feval を使用して、GPU で CUDA カーネルを実行します。カーネルオブジェクトの実行についての詳細については、CUDAKernel の実行を参照してください。

例

kern = parallel.gpu.CUDAKernel(ptxFile,cuFile,func) は、func で定義された関数エントリポイントの CUDAKernel を作成します。func は PTX ファイル内で適切なカーネルエントリポイントを明確に定義する必要があります。

例

kern = parallel.gpu.CUDAKernel(ptxFile,cProto) は、PTX ファイル ptxFile と C プロトタイプ cProto を使用して CUDAKernel オブジェクトを作成します。cProto は、kern が表すカーネル呼び出しの C 関数プロトタイプです。PTX ファイルは単一のエントリポイントのみを含む必要があります。

例

kern = parallel.gpu.CUDAKernel(ptxFile,cProto,func) は、func で定義された関数エントリポイントの PTX ファイルと C プロトタイプから CUDAKernel オブジェクトを作成します。func は PTX ファイル内で適切なカーネルエントリポイントを明確に定義する必要があります。

入力引数

すべて展開する

`ptxFile` — PTX ファイルまたはコード
string スカラー | 文字ベクトル

PTX ファイルまたは PTX コードの名前。

PTX ファイルの名前を指定するか、その内容を string として渡すことができます。

例: "simpleEx.ptx"

データ型: char | string

`cuFile` — CUDA ソースファイルの名前
string スカラー | 文字ベクトル

CUDA ソースファイルの名前。文字ベクトルとして指定します。

この関数は CUDA ソースファイルを調べ、PTX コードで定義されている CUDA カーネルの関数プロトタイプを検索します。CUDA ソースファイルには、'__global__' で始まるカーネル定義が含まれている必要があります。

例: "simpleEx.cu"

データ型: char | string

`func` — 関数エントリポイント
string スカラー | 文字ベクトル

関数エントリポイント。文字ベクトルとして指定します。func は PTX ファイル内で適切なエントリポイントを明確に定義する必要があります。

メモ

関数 parallel.gpu.CUDAKernel は PTX ファイル内で指定されたエントリポイントを検索し、出現するすべての部分文字列を照合します。したがって、エントリポイントの名前は他のエントリポイントの名前の部分文字列にしないでください。

例: "add1"

データ型: char | string

`cProto` — C プロトタイプ
string スカラー | 文字ベクトル

カーネル呼び出しの C プロトタイプ。文字ベクトルとして指定します。複数の入力引数は、コンマで区切って指定します。

例: "float *,float,int"

データ型: char | string

プロパティ

すべて展開する

`ThreadBlockSize` — カーネルにあるスレッドのブロックサイズ
正の整数ベクトル

カーネルにあるスレッドのブロックサイズ。長さ 1、2 または 3 の正の整数ベクトルとして指定します (スレッドブロックは最大 3 次元のため)。ThreadBlockSize の要素の積はこのカーネルの MaxThreadsPerBlock を超えてはならず、また、ThreadBlockSize のいずれの要素も GPUDevice のプロパティ MaxThreadBlockSize の対応する要素を超えることはできません。

例: [8 8 8]

`MaxThreadsPerBlock` — 単一ブロックで許可されるスレッドの最大数。
読み取り専用: 正の整数

このプロパティは読み取り専用です。

この CUDA カーネルの単一ブロックで許可されるスレッドの最大数。ThreadBlockSize の要素の積はこの値を超えてはなりません。

例: 1024

`GridSize` — グリッドのサイズ
正の整数ベクトル

スレッドブロックのグリッドのサイズ。長さが 3 の整数ベクトルとして指定します。これは実際上は、GPU によって個別に起動されるスレッドブロックの数です。このベクトルのいずれの要素も、GPUDevice オブジェクトの MaxGridSize プロパティのベクトルの対応する要素を超えることはできません。

例: [977 1 1]

`SharedMemorySize` — 共有メモリのサイズ
正の整数

各スレッドブロックが使用できる動的な共有メモリの量 (バイト単位)。各スレッドブロックには使用可能な共有メモリ領域があります。このメモリはマルチプロセッサ上のレジスタで共有されます。SharedMemorySize は GPUDevice オブジェクトの MaxShmemPerBlock プロパティを超過してはなりません。

すべてのメモリと同じく、これもカーネルの起動前に割り当てる必要があります。この共有メモリ領域のサイズをスレッドブロックのサイズに関連付けることは、一般に行われます。カーネル上でこの値を設定することで、ブロック内の各スレッドがこの使用可能な共有メモリ領域にアクセスできるようになります。

例: 16000

`EntryPoint` — エントリポイント名
読み取り専用: 文字ベクトル | string スカラー

このプロパティは読み取り専用です。

カーネルで呼び出される PTX コード内のエントリポイント名。

例: "_Z13returnPointerPKfPy"

データ型: char | string

`MaxNumLHSArguments` — 左辺引数の数の上限
読み取り専用: 正の整数

このプロパティは読み取り専用です。

カーネルでサポートされる左辺引数の数の上限。これは右辺引数の数を超えることはできず、また、定数またはスカラーの入力がある場合にはこの数より少なくなります。

例: 1

`NumRHSArguments` — 必要な右辺引数の数
読み取り専用: 正の整数

このプロパティは読み取り専用です。

このカーネルを呼び出すのに必要な右辺引数の数。すべての入力で、入力のスカラー値、ベクトル入出力の要素または出力引数のサイズのいずれかを定義する必要があります。

例: 5

`ArgumentTypes` — 予期される右辺引数のデータ型
読み取り専用: cell 配列

このプロパティは読み取り専用です。

長さが NumRHSArguments の文字ベクトルの cell 配列。各文字ベクトルでは、uint8、single、double などの数値型に scalar または vector の語が続き、参照と値のいずれで渡すかを示すことで、この入力に必要な MATLAB^® データ型が指定されます。また、引数がカーネルへの入力専用の場合には、その先頭に in が付きます。入出力兼用の場合は、その先頭に inout が付きます。これにより、MATLAB 配列と gpuArray オブジェクトの両方を使用してカーネルを効率的に呼び出す方法を決め、どのカーネル入力を出力として扱うかを確認できます。

例: {'inout double vector'} {'in double vector'} {'in double vector'} {'in uint32 scalar'} {'in uint32 scalar'}

データ型: cell

オブジェクト関数

`feval`	GPU 上のカーネルを評価する
`setConstantMemory`	GPU に定数メモリを設定する
`existsOnGPU`	GPU で gpuArray または CUDAKernel が使用可能かどうかを判別する

例

すべて折りたたむ

`CUDAKernel` オブジェクトの作成と実行

ライブスクリプトを開く

CUDA® ソースファイル addToVector.cu を検証します。このファイルは、ベクトルのすべての要素に定数を追加する関数 addToVector を定義しており、サポートファイルとしてこの例に添付されています。

type addToVector.cu

/*
* Add a constant to a vector.
*/
__global__ void addToVector(double * pi, float c, int vecLen)  {
   int idx = blockIdx.x * blockDim.x + threadIdx.x;
   if (idx < vecLen) {
       pi[idx] += c;
   }
}

-ptx オプションを指定してmexcudaを使用し、CU ファイルを PTX ファイルにコンパイルします。

mexcuda -ptx addToVector.cu

Building with 'NVIDIA CUDA Compiler'.
MEX completed successfully.

PTX ファイルと CU ファイルを使用して CUDA カーネルを作成します。

kern = parallel.gpu.CUDAKernel("addToVector.ptx","addToVector.cu");

カーネルをテストするためのベクトルと定数を作成します。

vectorLength = 4;
x = rand(vectorLength,1,"gpuArray")

c = gpuArray(2);

CUDAKernel オブジェクトのプロパティを設定し、GPU での実行を制御できるようにします。

kern.ThreadBlockSize = vectorLength;

カーネルを評価します。

y = feval(kern,x,c,vectorLength)

`CUDAKernel` オブジェクトのエントリポイントの指定

この例では、複数のエントリポイントが含まれた PTX ファイルから CUDAKernel オブジェクトを作成する方法を説明します。

CU ファイル myfun.cu に、2 つの double を一緒に追加するための関数 add1 および 2 つのベクトルを一緒に追加するための関数 add2 が含まれているものとします。

__global__ void add1( double * a, double b ) 
{
    *a += b;
}

__global__ void add2( double * v1, const double * v2 ) 
{
    int idx = threadIdx.x;
    v1[idx] += v2[idx];
}

-ptx オプションを指定して mexcuda を使用し、CU ファイルを PTX ファイルにコンパイルします。

mexcuda -ptx myfun.cu

Building with 'NVIDIA CUDA Compiler'.
MEX completed successfully.

PTX ファイルには、関数 add1 および add2 に対応する 2 つのエントリポイントが含まれています。PTX コードに複数のエントリポイントが含まれている場合、カーネルの作成時に 1 つのエントリを指定する必要があります。

2 つの double を一緒に追加するためのカーネルを作成し、エントリポイント add1 を指定します。

k = parallel.gpu.CUDAKernel("myfun.ptx","myfun.cu","add1");

バージョン履歴

R2010b で導入

参考

feval | mexcuda | gpuArray | GPUDevice

トピック

GPU での CUDA または PTX コードの実行

parallel.gpu.CUDAKernel

説明

作成

構文

説明

入力引数

ptxFile — PTX ファイルまたはコード string スカラー | 文字ベクトル

cuFile — CUDA ソース ファイルの名前 string スカラー | 文字ベクトル

func — 関数エントリ ポイント string スカラー | 文字ベクトル

cProto — C プロトタイプ string スカラー | 文字ベクトル

プロパティ

ThreadBlockSize — カーネルにあるスレッドのブロック サイズ 正の整数ベクトル

MaxThreadsPerBlock — 単一ブロックで許可されるスレッドの最大数。 読み取り専用: 正の整数

GridSize — グリッドのサイズ 正の整数ベクトル

SharedMemorySize — 共有メモリのサイズ 正の整数

EntryPoint — エントリ ポイント名 読み取り専用: 文字ベクトル | string スカラー

MaxNumLHSArguments — 左辺引数の数の上限 読み取り専用: 正の整数

NumRHSArguments — 必要な右辺引数の数 読み取り専用: 正の整数

ArgumentTypes — 予期される右辺引数のデータ型 読み取り専用: cell 配列

オブジェクト関数

例

CUDAKernel オブジェクトの作成と実行

CUDAKernel オブジェクトのエントリ ポイントの指定

バージョン履歴

参考

トピック

`ptxFile` — PTX ファイルまたはコード
string スカラー | 文字ベクトル

`cuFile` — CUDA ソースファイルの名前
string スカラー | 文字ベクトル

`func` — 関数エントリポイント
string スカラー | 文字ベクトル

`cProto` — C プロトタイプ
string スカラー | 文字ベクトル

`ThreadBlockSize` — カーネルにあるスレッドのブロックサイズ
正の整数ベクトル

`MaxThreadsPerBlock` — 単一ブロックで許可されるスレッドの最大数。
読み取り専用: 正の整数

`GridSize` — グリッドのサイズ
正の整数ベクトル

`SharedMemorySize` — 共有メモリのサイズ
正の整数

`EntryPoint` — エントリポイント名
読み取り専用: 文字ベクトル | string スカラー

`MaxNumLHSArguments` — 左辺引数の数の上限
読み取り専用: 正の整数

`NumRHSArguments` — 必要な右辺引数の数
読み取り専用: 正の整数

`ArgumentTypes` — 予期される右辺引数のデータ型
読み取り専用: cell 配列

`CUDAKernel` オブジェクトの作成と実行

`CUDAKernel` オブジェクトのエントリポイントの指定