pdist2

観測値の 2 つの集合間のペアワイズ距離

ページ内をすべて折りたたむ

構文

D = pdist2(X,Y,Distance)

D = pdist2(X,Y,Distance,DistParameter)

D = pdist2(___,Name,Value)

[D,I] = pdist2(___)

説明

D = pdist2(X,Y,Distance) は、Distance によって指定される尺度を使用して、X および Y に含まれている観測値の各ペアの間の距離を返します。

例

D = pdist2(X,Y,Distance,DistParameter) は、Distance および DistParameter で指定された尺度を使用して距離を返します。DistParameter を指定できるのは、Distance が 'seuclidean'、'minkowski' または 'mahalanobis' である場合だけです。

例

D = pdist2(___,Name,Value) は、上記の任意の引数について、名前と値のパラメーターを使用して計算を変更します。以下に例を示します。

D = pdist2(X,Y,Distance,'Smallest',K) は、Distance によって指定された尺度を使用して距離を計算し、Y 内の各観測値について X 内の観測値に対するペアワイズ距離を最小のものから K 個、昇順で返します。
D = pdist2(X,Y,Distance,DistParameter,'Largest',K) は、Distance および DistParameter によって指定された尺度を使用して距離を計算し、ペアワイズ距離を最大のものから K 個、降順で返します。

例

[D,I] = pdist2(___) は行列 I も返します。行列 I には、D 内の距離に対応する X 内の観測値のインデックスが格納されます。I を返すには Smallest または Largest を指定しなければなりません。

例

すべて折りたたむ

ユークリッド距離の計算

ライブスクリプトを開く

3 つの観測値と 2 つの変数を使用して 2 つの行列を作成します。

rng('default') % For reproducibility
X = rand(3,2);
Y = rand(3,2);

ユークリッド距離を計算します。入力引数 Distance の既定値は 'euclidean' です。名前と値のペアの引数を使用せずにユークリッド距離を計算する場合、Distance を指定する必要はありません。

D = pdist2(X,Y)

D = 3×3

    0.5387    0.8018    0.1538
    0.7100    0.5951    0.3422
    0.8805    0.4242    1.2050

D(i,j) は、X 内の観測値 i と Y 内の観測値 j の間のペアワイズ距離に対応します。

ミンコフスキー距離の計算

ライブスクリプトを開く

3 つの観測値と 2 つの変数を使用して 2 つの行列を作成します。

rng('default') % For reproducibility
X = rand(3,2);
Y = rand(3,2);

既定の指数 2 を使用してミンコフスキー距離を計算します。

D1 = pdist2(X,Y,'minkowski')

D1 = 3×3

    0.5387    0.8018    0.1538
    0.7100    0.5951    0.3422
    0.8805    0.4242    1.2050

指数を 1 にしてミンコフスキー距離を計算します。これは市街地距離に等しくなります。

D2 = pdist2(X,Y,'minkowski',1)

D2 = 3×3

    0.5877    1.0236    0.2000
    0.9598    0.8337    0.3899
    1.0189    0.4800    1.7036

D3 = pdist2(X,Y,'cityblock')

D3 = 3×3

    0.5877    1.0236    0.2000
    0.9598    0.8337    0.3899
    1.0189    0.4800    1.7036

マハラノビス距離の計算

ライブスクリプトを開く

5 つの観測値と 2 つの変数を使用して 2 つの行列を作成します。

rng(0,"twister") % For reproducibility
X = rand(5,2);
Y = rand(5,2);

pdist2 関数を使用してマハラノビス距離を計算します。

D = pdist2(X,Y,"mahalanobis")

D = 5×5

    2.0012    0.9926    2.1767    1.9656    2.2036
    2.3429    0.4318    1.6528    1.7564    1.7453
    1.0330    2.5697    2.7833    1.3093    2.3936
    3.2463    1.3676    0.1638    1.4094    0.3452
    2.6608    1.6585    0.9895    0.6572    0.5121

X の平均と観測値 Y の間のマハラノビス距離を計算します。距離計量のパラメーターには X の共分散を使用します。

D2 = pdist2(mean(X),Y,"mahalanobis",cov(X))

D2 = 1×5

    2.0090    0.9377    1.2824    0.7850    1.0966

mahal関数を使用してマハラノビス平方距離を計算します。

SqMahalDist = mahal(Y,X)'

SqMahalDist = 1×5

    4.0360    0.8792    1.6445    0.6162    1.2025

それぞれの値の平方根を計算します。

MahalDist = SqMahalDist.^0.5

MahalDist = 1×5

    2.0090    0.9377    1.2824    0.7850    1.0966

マハラノビス距離の値は、pdist2 関数によって返される値と同じになります。

2 つの最小のペアワイズ距離の計算

ライブスクリプトを開く

3 つの観測値と 2 つの変数を使用して 2 つの行列を作成します。

rng('default') % For reproducibility
X = rand(3,2);
Y = rand(3,2);

Y 内の各観測値について X 内の観測値に対するペアワイズのユークリッド距離を最小のものから 2 つ求めます。

[D,I] = pdist2(X,Y,'euclidean','Smallest',2)

D = 2×3

    0.5387    0.4242    0.1538
    0.7100    0.5951    0.3422

I = 2×3

     1     3     1
     2     2     2

pdist2 は、Y 内の各観測値について X 内の観測値すべてに対する距離値を計算して比較することにより、最小の 2 つの距離を求めます。そして、D の各列に格納されている距離を昇順で並べ替えます。I には、D 内の距離に対応する X 内の観測値のインデックスが格納されます。

`fasteuclidean` 距離を使用した距離計算の高速化

ライブスクリプトを開く

2 つの大規模な点の行列を作成し、既定の "euclidean" 距離計量を使用した pdist2 の所要時間を測定します。

rng default % For reproducibility
N = 10000;
X = randn(N,1000);
Y = randn(N,1000);
D = pdist2(X,Y); % Warm up function for more reliable timing information
tic
D = pdist2(X,Y);
standard = toc

standard = 
10.0143

次に、"fasteuclidean" 距離計量を使用した pdist2 の所要時間を測定します。キャッシュサイズは 100 に指定します。

D = pdist2(X,Y,"fasteuclidean",CacheSize=100); % Warm up function
tic
D2 = pdist2(X,Y,"fasteuclidean",CacheSize=100);
accelerated = toc

accelerated = 
1.8175

計算の高速化によって標準よりも何倍速くなったかを評価します。

standard/accelerated

ans = 
5.5099

この例では、高速化したバージョンの方が 2 倍を超える速さになっています。

カスタム距離関数の使用による、欠損要素があるペアワイズ距離の計算

スクリプトを開く

NaN 値がある座標を無視するカスタム距離関数を定義し、この関数を使用してペアワイズ距離を計算します。

3 つの観測値と 3 つの変数を使用して 2 つの行列を作成します。

rng('default') % For reproducibility
X = rand(3,3)
Y = [X(:,1:2) rand(3,1)]

X =

    0.8147    0.9134    0.2785
    0.9058    0.6324    0.5469
    0.1270    0.0975    0.9575


Y =

    0.8147    0.9134    0.9649
    0.9058    0.6324    0.1576
    0.1270    0.0975    0.9706

X と Y の初めの 2 列は同じです。X(1,1) が欠損していると仮定します。

X(1,1) = NaN

X =

       NaN    0.9134    0.2785
    0.9058    0.6324    0.5469
    0.1270    0.0975    0.9575

ハミング距離を計算します。

D1 = pdist2(X,Y,'hamming')

D1 =

       NaN       NaN       NaN
    1.0000    0.3333    1.0000
    1.0000    1.0000    0.3333

X 内の観測値 i または Y 内の観測値 j に NaN 値が含まれている場合、関数 pdist2 は i と j の間のペアワイズ距離として NaN を返します。したがって、D1(1,1)、D1(1,2) および D1(1,3) は NaN 値になります。

NaN 値がある座標を無視してハミング距離を計算するカスタム距離関数 nanhamdist を定義します。大量の観測値を処理する場合、データの座標に対してループ処理を行うことにより距離の計算を高速化できます。

function D2 = nanhamdist(XI,XJ)  
%NANHAMDIST Hamming distance ignoring coordinates with NaNs
[m,p] = size(XJ);
nesum = zeros(m,1);
pstar = zeros(m,1);
for q = 1:p
    notnan = ~(isnan(XI(q)) | isnan(XJ(:,q)));
    nesum = nesum + ((XI(q) ~= XJ(:,q)) & notnan);
    pstar = pstar + notnan;
end
D2 = nesum./pstar;

pdist2 の入力引数として関数ハンドルを渡すことにより、nanhamdist で距離を計算します。

D2 = pdist2(X,Y,@nanhamdist)

D2 =

    0.5000    1.0000    1.0000
    1.0000    0.3333    1.0000
    1.0000    1.0000    0.3333

既存クラスターへの新しいデータの割り当てと C/C++ コードの生成

この例では次を使用します。

ライブスクリプトを開く

kmeansは、k-means クラスタリングを実行して、データを k 個のクラスターに分割します。新しいデータセットをクラスター化するときに、kmeans を使用して、既存のデータと新しいデータが含まれる新しいクラスターを作成できます。関数 kmeans は C/C++ コード生成をサポートするので、学習データを受け入れてクラスタリングの結果を返すコードを生成してから、コードをデバイスに展開できます。このワークフローでは学習データを渡さなければなりませんが、サイズが非常に大きい可能性があります。デバイスのメモリを節約するため、kmeans とpdist2をそれぞれ使用して、学習と予測を分離することができます。

kmeans を使用して MATLAB® でクラスターを作成し、生成されたコードで pdist2 を使用して新しいデータを既存のクラスターに割り当てます。コード生成用に、クラスターの重心位置と新しいデータセットを受け入れて最も近いクラスターのインデックスを返すエントリポイント関数を定義します。次に、エントリポイント関数のコードを生成します。

C/C++ コードの生成には MATLAB® Coder™ が必要です。

k-means クラスタリングの実行

3 つの分布を使用して、学習データセットを生成します。

rng('default') % For reproducibility
X = [randn(100,2)*0.75+ones(100,2);
    randn(100,2)*0.5-ones(100,2);
    randn(100,2)*0.75];

kmeansを使用して、学習データを 3 つのクラスターに分割します。

[idx,C] = kmeans(X,3);

クラスターとクラスター重心をプロットします。

figure
gscatter(X(:,1),X(:,2),idx,'bgm')
hold on
plot(C(:,1),C(:,2),'kx')
legend('Cluster 1','Cluster 2','Cluster 3','Cluster Centroid')

Figure contains an axes object. The axes object contains 4 objects of type line. One or more of the lines displays its values using only markers These objects represent Cluster 1, Cluster 2, Cluster 3, Cluster Centroid.

既存クラスターへの新しいデータの割り当て

テストデータセットを生成します。

Xtest = [randn(10,2)*0.75+ones(10,2);
    randn(10,2)*0.5-ones(10,2);
    randn(10,2)*0.75];

既存のクラスターを使用して、テストデータセットを分類します。pdist2を使用して、各テストデータ点から最も近い重心を求めます。

[~,idx_test] = pdist2(C,Xtest,'euclidean','Smallest',1);

gscatter を使用してテストデータをプロットします。idx_test を使用してテストデータにラベルを付けます。

gscatter(Xtest(:,1),Xtest(:,2),idx_test,'bgm','ooo')
legend('Cluster 1','Cluster 2','Cluster 3','Cluster Centroid', ...
    'Data classified to Cluster 1','Data classified to Cluster 2', ...
    'Data classified to Cluster 3')

Figure contains an axes object. The axes object contains 7 objects of type line. One or more of the lines displays its values using only markers These objects represent Cluster 1, Cluster 2, Cluster 3, Cluster Centroid, Data classified to Cluster 1, Data classified to Cluster 2, Data classified to Cluster 3.

コードの生成

新しいデータを既存のクラスターに割り当てる C コードを生成します。C/C++ コードの生成には MATLAB® Coder™ が必要であることに注意してください。

重心位置と新しいデータを受け入れてから、pdist2を使用して最も近いクラスターを求める、findNearestCentroid という名前のエントリポイント関数を定義します。

MATLAB のアルゴリズムについてのコードを生成しようとしていることを指示するため、コンパイラ命令 %#codegen (またはプラグマ) をエントリポイント関数のシグネチャの後に追加します。この命令を追加すると、コード生成時にエラーになる違反の診断と修正を MATLAB Code Analyzer が支援します。

type findNearestCentroid % Display contents of findNearestCentroid.m

function idx = findNearestCentroid(C,X) %#codegen
[~,idx] = pdist2(C,X,'euclidean','Smallest',1); % Find the nearest centroid

メモ: このページの右上にあるボタンをクリックしてこの例を MATLAB® で開くと、MATLAB® で例のフォルダーが開きます。このフォルダーには、エントリポイント関数のファイルが含まれています。

codegen (MATLAB Coder)を使用してコードを生成します。C および C++ は静的な型の言語なので、エントリポイント関数内のすべての変数のプロパティをコンパイル時に決定しなければなりません。findNearestCentroid の入力のデータ型と配列サイズを指定するため、-args オプションを使用して、特定のデータ型および配列サイズをもつ一連の値を表す MATLAB 式を渡します。詳細については、コード生成用の可変サイズ引数の指定を参照してください。

codegen findNearestCentroid -args {C,Xtest}

Code generation successful.

codegen は、プラットフォームに依存する拡張子をもつ MEX 関数 findNearestCentroid_mex を生成します。

生成されたコードを検証します。

myIndx = findNearestCentroid(C,Xtest);
myIndex_mex = findNearestCentroid_mex(C,Xtest);
verifyMEX = isequal(idx_test,myIndx,myIndex_mex)

verifyMEX = logical
   1

isequal は、すべての入力が等しいことを意味する logical 1 (true) を返します。この比較により、同じインデックスを関数 pdist2、関数 findNearestCentroid、および MEX 関数が返すことを確認します。

GPU Coder™ を使用して、最適化された CUDA® コードを生成することもできます。

cfg = coder.gpuConfig('mex');
codegen -config cfg findNearestCentroid -args {C,Xtest}

コード生成の詳細については、一般的なコード生成のワークフローを参照してください。GPU Coder の詳細については、GPU Coder 入門 (GPU Coder)とサポートされる関数 (GPU Coder)を参照してください。

入力引数

すべて折りたたむ

`X,Y` — 入力データ
数値行列

入力データ。数値行列を指定します。X は mx 行 n 列の行列、Y は my 行 n 列の行列です。行は各観測値に、列は各変数に対応します。

データ型: single | double

`Distance` — 距離計量
文字ベクトル | string スカラー | 関数ハンドル

距離計量。次の表に記載されているように文字ベクトル、string スカラーまたは関数ハンドルを指定します。

値	説明
`'euclidean'`	ユークリッド距離 (既定)
`'squaredeuclidean'`	2 乗ユークリッド距離(効率向上のみを目的に提供されているオプション。三角不等式は満たさない)。
`'seuclidean'`	標準化されたユークリッド距離。観測値間の各座標差は、標準偏差 `S = std(X,'omitnan')` の対応する要素で除算することによりスケーリングされます。`S` について別の値を指定するには、`DistParameter` を使用します。
`'fasteuclidean'`	予測子の数が 10 個以上の場合に時間の短縮になる代替アルゴリズムを使用して計算されるユークリッド距離。このアルゴリズムは高速ですが、場合によっては精度が低下することがあります。`'fast'` から始まるアルゴリズムでは、スパースデータはサポートされません。詳細については、アルゴリズムを参照してください。
`'fastsquaredeuclidean'`	予測子の数が 10 個以上の場合に時間の短縮になる代替アルゴリズムを使用して計算される 2 乗ユークリッド距離。このアルゴリズムは高速ですが、場合によっては精度が低下することがあります。`'fast'` から始まるアルゴリズムでは、スパースデータはサポートされません。詳細については、アルゴリズムを参照してください。
`'fastseuclidean'`	予測子の数が 10 個以上の場合に時間の短縮になる代替アルゴリズムを使用して計算される標準化されたユークリッド距離。このアルゴリズムは高速ですが、場合によっては精度が低下することがあります。`'fast'` から始まるアルゴリズムでは、スパースデータはサポートされません。詳細については、アルゴリズムを参照してください。
`'mahalanobis'`	`X` の標本共分散を使用して `C = cov(X,'omitrows')` として計算されるマハラノビス距離。`C` について別の値を指定するには、`DistParameter` を使用します。ここで、行列 `C` は対称な正定値です。
`'cityblock'`	市街地距離
`'minkowski'`	ミンコフスキー距離。既定の指数は 2 です。異なる指数 `P` を指定するには、`DistParameter` を使用します。`P` は指数を表す正のスカラー値です。
`'chebychev'`	チェビシェフ距離 (最大座標差)
`'cosine'`	1 から、ベクトルとして扱われる点の間の夾角の余弦を引いた値
`'correlation'`	1 から、値の系列として扱われる点の間の標本相関を引いた値
`'hamming'`	ハミング距離 (異なる座標の比率)
`'jaccard'`	1 からジャカード係数 (異なる非ゼロ座標の比率) を減算
`'spearman'`	1 から観測値間の標本スピアマン順位相関係数を減算 (値の系列として処理)
`@distfun`	カスタム距離関数のハンドル。距離関数の形式は次のようになります。 function D2 = distfun(ZI,ZJ) % calculation of distance ... ここで `ZI` は、単一の観測値が含まれている `1` 行 `n` 列のベクトルです。 `ZJ` は、複数の観測値が含まれている `m2` 行 `n` 列の行列です。`distfun` は、任意の個数の観測値が含まれている行列 `ZJ` を受け入れなければなりません。 `D2` は `m2` 行 `1` 列の距離のベクトルであり、`D2(k)` は観測値 `ZI` と `ZJ(k,:)` の間の距離です。データがスパースでない場合、通常は関数ハンドルではなく組み込みの距離計量を使用する方が高速に距離を計算できます。

定義については距離計量を参照してください。

'seuclidean'、'minkowski' または 'mahalanobis' を使用する場合、これらの尺度を制御する追加入力引数 DistParameter を指定できます。DistParameter を既定値にすると、これらの尺度を他の尺度と同じ方法で使用できます。

例: 'minkowski'

データ型: char | string | function_handle

`DistParameter` — 距離計量のパラメーター値
正のスカラー | 数値ベクトル | 数値行列

距離計量のパラメーター値。正のスカラー、数値ベクトルまたは数値行列を指定します。この引数は、Distance として 'seuclidean'、'minkowski' または 'mahalanobis' を指定した場合のみ有効です。

Distance が 'seuclidean' の場合、DistParameter は各次元のスケーリング係数のベクトルで、正のベクトルを指定します。既定値は std(X,'omitnan') です。
Distance が 'minkowski' の場合、DistParameter はミンコフスキー距離の指数で、正のスカラーを指定します。既定値は 2 です。
Distance が 'mahalanobis' の場合、DistParameter は共分散行列で、数値行列を指定します。既定値は cov(X,'omitrows') です。DistParameter は、対称な正定値行列でなければなりません。

例: 'minkowski',3

データ型: single | double

名前と値の引数

すべて折りたたむ

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで、Name は引数名で、Value は対応する値です。名前と値の引数は他の引数の後に指定しなければなりませんが、ペアの順序は重要ではありません。

R2021a より前では、名前と値をそれぞれコンマを使って区切り、Name を引用符で囲みます。

例: 'Smallest',K または 'Largest',K。'Smallest' と 'Largest' を同時に使用することはできません。

`CacheSize` — メガバイト単位のグラム行列のサイズ
`1e3` (既定値) | 正のスカラー | `'maximal'`

メガバイト単位のグラム行列のサイズ。正のスカラーまたは 'maximal' として指定します。関数 pdist2 で CacheSize を使用できるのは、引数 Distance が fast で始まる場合のみです。

'maximal' の場合、pdist2 は、MX 行 MY 列のサイズの中間行列全体に十分なメモリを割り当てようと試みます。ここで、MX は入力データ X の行数、MY は入力データ Y の行数です。キャッシュサイズは、中間行列全体に対して十分な大きさである必要はありませんが、少なくとも MX 行 1 列のベクトルを保持する十分な大きさでなければなりません。そうでない場合、pdist2 でのユークリッド距離の計算に通常のアルゴリズムが使用されます。

距離の引数が fast で始まる場合に、CacheSize の値が大きすぎるか 'maximal' であると、利用可能なメモリを超えるグラム行列の割り当てが pdist2 で試行されることがあります。この場合、MATLAB^® はエラーを生成します。

例: CacheSize='maximal'

データ型: double | char | string

`Smallest` — 求める最小距離の個数
正の整数

求める最小距離の個数。'Smallest' と正の整数から構成されるコンマ区切りのペアとして指定します。'Smallest' を指定した場合、pdist2 は D の各列の距離を昇順で並べ替えます。引数 Smallest と Largest は、いずれか 1 つだけを使用できます。

例: 'Smallest',3

データ型: single | double

`Largest` — 求める最大距離の個数
正の整数

求める最大距離の個数。'Largest' と正の整数から構成されるコンマ区切りのペアとして指定します。'Largest' を指定した場合、pdist2 は D の各列の距離を降順で並べ替えます。引数 Smallest と Largest は、いずれか 1 つだけを使用できます。

例: 'Largest',3

データ型: single | double

出力引数

すべて折りたたむ

`D` — ペアワイズ距離
数値行列

ペアワイズ距離。数値行列として返されます。

'Smallest' も 'Largest' も指定しなかった場合、D は mx 行 my 列の行列になります。mx と my はそれぞれ X および Y 内の観測値の個数です。D(i,j) は、X 内の観測値 i と Y 内の観測値 j の間の距離です。X 内の観測値 i または Y 内の観測値 j に NaN が含まれている場合、組み込み距離関数では D(i,j) が NaN になります。

'Smallest' または 'Largest' として K を指定した場合、D は K 行 my 列の行列になります。D には、Y 内の各観測値について X 内の観測値に対する K 個の最小のペアワイズ距離または K 個の最大のペアワイズ距離が格納されます。Y の各観測値に対し、pdist2 は X 内の観測値すべてに対する距離値を計算して比較することで、最小または最大の距離 K を求めます。K が mx より大きい場合、pdist2 は mx 行 my 列の行列を返します。

`I` — 並べ替えのインデックス
正の整数の行列

並べ換えのインデックス。正の整数の行列として返されます。I は D と同じサイズです。I には、D 内の距離に対応する X 内の観測値のインデックスが格納されます。I を返すには Smallest または Largest を指定しなければなりません。

詳細

すべて折りたたむ

距離計量

距離計量は、2 つの観測値の間の距離を定義する関数です。pdist2 は、以下の各種距離計量、ユークリッド距離、標準化されたユークリッド距離、マハラノビス距離、市街地距離、ミンコフスキー距離、チェビシェフ距離、コサイン距離、相関距離、ハミング距離、Jaccard 距離およびスピアマン距離をサポートします。

mx 行 n 列のデータ行列 X (mx 個の 1 行 n 列の行ベクトル x₁、x₂、...、x_mx として扱われる) と、my 行 n 列のデータ行列 Y (my 個の 1 行 n 列の行ベクトル y₁、y₂、...、y_my として扱われる) が与えられた場合、ベクトル x_s と y_t の間のさまざまな距離は次のように定義されます。

ユークリッド距離
$d_{s t}^{2} = (x_{s} - y_{t}) (x_{s} - y_{t})^{'} .$
ユークリッド距離はミンコフスキー距離の特殊なケース、p = 2 の場合です。
標準化されたユークリッド距離
$d_{s t}^{2} = (x_{s} - y_{t}) V^{- 1} (x_{s} - y_{t})^{'},$
ここで、V は j 番目の対角要素が (S(j))² である n 行 n 列の対角行列です。S は各次元のスケーリング係数のベクトルです。
高速ユークリッド距離はユークリッド距離と同じで、予測子の数が 10 個以上の場合に時間の短縮になる代替アルゴリズムを使用して計算されます。このアルゴリズムは高速ですが、場合によっては精度が低下することがあります。スパースデータはサポートされません。高速ユークリッド距離アルゴリズムを参照してください。
高速ユークリッド距離を指定するには、Distance パラメーターを 'fasteuclidean' に設定します。
標準化された高速ユークリッド距離は標準化されたユークリッド距離と同じで、予測子の数が 10 個以上の場合に時間の短縮になる代替アルゴリズムを使用して計算されます。このアルゴリズムは高速ですが、場合によっては精度が低下することがあります。スパースデータはサポートされません。高速ユークリッド距離アルゴリズムを参照してください。
標準化された高速ユークリッド距離を指定するには、Distance パラメーターを 'fastseuclidean' に設定します。
マハラノビス距離
$d_{s t}^{2} = (x_{s} - y_{t}) C^{- 1} (x_{s} - y_{t})^{'},$
ここで、C は共分散行列です。
市街地距離
$d_{s t} = \sum_{j = 1}^{n} | x_{s j} - y_{t j} | .$
市街地距離はミンコフスキー距離の特殊なケース、p = 1 の場合です。
ミンコフスキー距離
$d_{s t} = \sqrt[p]{\sum_{j = 1}^{n} {| x_{s j} - y_{t j} |}^{p}} .$
p = 1 という特殊なケースでは、ミンコフスキー距離は市街地距離を与えます。p = 2 という特殊なケースでは、ミンコフスキー距離はユークリッド距離を与えます。p = ∞ という特殊なケースでは、ミンコフスキー距離はチェビシェフ距離を与えます。
チェビシェフ距離
$d_{s t} = \max_{j} {| x_{s j} - y_{t j} |} .$
チェビシェフ距離はミンコフスキー距離の特殊なケース、p = ∞ の場合です。
コサイン距離
$d_{s t} = (1 - \frac{x_{s} {y^{'}}_{t}}{\sqrt{(x_{s} {x^{'}}_{s}) (y_{t} {y^{'}}_{t})}}) .$
相関距離
$d_{s t} = 1 - \frac{(x_{s} - {\bar{x}}_{s}) {(y_{t} - {\bar{y}}_{t})}^{'}}{\sqrt{(x_{s} - {\bar{x}}_{s}) {(x_{s} - {\bar{x}}_{s})}^{'}} \sqrt{(y_{t} - {\bar{y}}_{t}) {(y_{t} - {\bar{y}}_{t})}^{'}}},$
ここで
${\bar{x}}_{s} = \frac{1}{n} \sum_{j} x_{s j}$
および
${\bar{y}}_{t} = \frac{1}{n} \sum_{j} y_{t j} .$
ハミング距離
$d_{s t} = (# (x_{s j} \neq y_{t j}) / n) .$
ハミング距離は、一致しない座標の比率です。
Jaccard 距離は、1 からジャカード係数 (異なる非ゼロ座標の比率) を引きます。
$d_{s t} = \frac{# [(x_{s j} \neq y_{t j}) \cap ((x_{s j} \neq 0) \cup (y_{t j} \neq 0))]}{# [(x_{s j} \neq 0) \cup (y_{t j} \neq 0)]} .$
スピアマン距離は、1 から一連の値として扱われる観測値間の標本スピアマン順位相関係数を引きます。
$d_{s t} = 1 - \frac{(r_{s} - {\bar{r}}_{s}) {(r_{t} - {\bar{r}}_{t})}^{'}}{\sqrt{(r_{s} - {\bar{r}}_{s}) {(r_{s} - {\bar{r}}_{s})}^{'}} \sqrt{(r_{t} - {\bar{r}}_{t}) {(r_{t} - {\bar{r}}_{t})}^{'}}},$
ここで
- r_sj は、tiedrank により計算される、x_1j、x_2j、...x_mx,j から取得された x_sj の順位です。
- r_tj は、tiedrank により計算される、y_1j、y_2j、...y_my,j から取得された y_tj の順位です。
- r_s および r_t は、x_s および y_t の座標単位の順位ベクトルです。つまり、r_s = (r_s₁, r_s₂, ... r_sn) および r_t = (r_t1, r_t2, ... r_tn) です。
- ${\bar{r}}_{s} = \frac{1}{n} \sum_{j} r_{s j} = \frac{(n + 1)}{2}$ .
- ${\bar{r}}_{t} = \frac{1}{n} \sum_{j} r_{t j} = \frac{(n + 1)}{2}$ .

アルゴリズム

すべて折りたたむ

高速ユークリッド距離アルゴリズム

Distance 引数の fast から始まる値 ("fasteuclidean" や "fastseuclidean" など) で使用されるアルゴリズムでは、計算時間の短縮のために追加のメモリを使用してユークリッド距離が計算されます。このアルゴリズムは、Albanie の[1]などで "ユークリッド距離行列トリック" として提唱されているものです。内部テストでは、このアルゴリズムによって予測子の数が 10 個以上の場合に時間の短縮になることが確認されています。fast から始まるアルゴリズムでは、スパースデータはサポートされません。

このアルゴリズムでは、x_i と x_j のすべての点間の距離の行列 D を求めるために (x_i のそれぞれに n 個の変数を格納)、次の方程式の最後の行を使用して距離を計算します。

$\begin{matrix} D_{i, j}^{2} = ‖ x_{i} - x_{j} ‖^{2} \\ = (^{x_{i} - x_{j}) T} (x_{i} - x_{j}) \\ = ‖ x_{i} ‖^{2} - 2 x_{i}^{T} x_{j} + ‖ x_{j} ‖^{2} . \end{matrix}$

方程式の最後の行にある行列 $x_{i}^{T} x_{j}$ は "グラム行列" と呼ばれます。正方化と加算によって平方距離を計算する代わりに、グラム行列を計算して使用すると、一連の平方距離の計算は高速になりますが、数値的安定性は少し低くなります。詳細については、Albanie [1]を参照してください。

グラム行列を格納するためにソフトウェアで既定で使用されるキャッシュのサイズは 1e3 メガバイトです。キャッシュサイズは名前と値の引数 CacheSize を使用して設定できます。CacheSize の値が大きすぎるか "maximal" である場合、利用可能なメモリを超えるグラム行列の割り当てが試行されることがあります。この場合はエラーが発行されます。

参照

[1] Albanie, Samuel. Euclidean Distance Matrix Trick. June, 2019. Available at https://samuelalbanie.com/files/Euclidean_distance_trick.pdf.

拡張機能

すべて展開する

tall 配列
メモリの許容量を超えるような多数の行を含む配列を計算します。

pdist2 関数は、tall 配列を次の使用上の注意および制限付きでサポートします。

最初の入力 X は tall 配列でなければなりません。入力 Y を tall 配列にすることはできません。

詳細は、tall 配列を参照してください。

C/C++ コード生成
MATLAB® Coder™ を使用して C および C++ コードを生成します。

使用上の注意および制限:

距離の入力引数 (Distance) の値は、コンパイル時の定数でなければなりません。たとえば、ミンコフスキー距離を使用するには、coder.Constant('Minkowski') を codegen の -args の値に含めます。
距離の入力引数 (Distance) の値をカスタム距離関数にすることはできません。
pdist2 では、高速ユークリッド距離計算、つまり名前が fast から始まる距離計量 ('fasteuclidean' など) のコード生成はサポートされていません。
名前と値の引数に含まれる名前はコンパイル時の定数でなければなりません。たとえば、生成されたコードで名前と値のペアの引数 'Smallest' を使用するには、{coder.Constant('Smallest'),0} を codegen (MATLAB Coder) の -args の値に含めます。
数値の精度のため、生成されたコードにおける同順位の距離の並べ替え順序は MATLAB における順序と異なる可能性があります。
pdist2 に対して生成されるコードでは、parfor (MATLAB Coder) を使用して、サポートされる共有メモリマルチコアプラットフォームで並列実行されるループが作成されます。コンパイラが Open Multiprocessing (OpenMP) アプリケーションインターフェイスをサポートしない場合、または OpenMP ライブラリを無効にした場合、MATLAB Coder™ は parfor ループを for ループとして扱います。サポートされるコンパイラについては、サポートされるコンパイラを参照してください。OpenMP ライブラリを無効にするには、構成オブジェクトの EnableOpenMP プロパティを false に設定します。詳細については、coder.CodeConfig (MATLAB Coder) を参照してください。
pdist2 は、生成されたスタンドアロン C/C++ コードにおいて、整数型 (int32) のインデックスを返します。そのため、関数は、単精度の入力を使用する場合、厳密な単精度のサポートを可能にします。MEX コード生成では、関数は依然として MATLAB の動作に一致する倍精度のインデックスを返します。

コード生成の詳細については、コード生成の紹介および一般的なコード生成のワークフローを参照してください。

GPU コード生成
GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。

使用上の注意および制限:

最適化された CUDA コードについてサポートされる距離入力引数値 (Distance) は、'euclidean'、'squaredeuclidean'、'seuclidean'、'cityblock'、'minkowski'、'chebychev'、'cosine'、'correlation'、'hamming' および 'jaccard' です。
Distance をカスタム距離関数にすることはできません。
Distance はコンパイル時の定数でなければなりません。
名前と値のペアの引数に含まれる名前はコンパイル時の定数でなければなりません。
数値の精度のため、生成されたコードにおける同順位の距離の並べ替え順序は MATLAB における順序と異なる可能性があります。

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

使用上の注意および制限:

入力引数 Distance を "fasteuclidean"、"fastsquaredeuclidean"、"fastseuclidean"、またはカスタム距離関数として指定することはできません。

詳細は、GPU での MATLAB 関数の実行 (Parallel Computing Toolbox)を参照してください。

バージョン履歴

R2010a で導入

すべて展開する

R2023a: キャッシュを使用した高速ユークリッド距離

'fasteuclidean'、'fastseuclidean'、および 'fastsquaredeuclidean' の Distance の計量では、キャッシュと別のアルゴリズムを使用してユークリッド距離の計算が高速化されます (アルゴリズムを参照)。キャッシュのサイズは名前と値の引数 CacheSize を使用して設定します。

参考

pdist | createns | knnsearch | ExhaustiveSearcher | KDTreeSearcher

pdist2

構文

説明

例

ユークリッド距離の計算

ミンコフスキー距離の計算

マハラノビス距離の計算

2 つの最小のペアワイズ距離の計算

fasteuclidean 距離を使用した距離計算の高速化

カスタム距離関数の使用による、欠損要素があるペアワイズ距離の計算

既存クラスターへの新しいデータの割り当てと C/C++ コードの生成

入力引数

X,Y — 入力データ 数値行列

Distance — 距離計量 文字ベクトル | string スカラー | 関数ハンドル

DistParameter — 距離計量のパラメーター値 正のスカラー | 数値ベクトル | 数値行列

名前と値の引数

CacheSize — メガバイト単位のグラム行列のサイズ 1e3 (既定値) | 正のスカラー | 'maximal'

Smallest — 求める最小距離の個数 正の整数

Largest — 求める最大距離の個数 正の整数

出力引数

D — ペアワイズ距離 数値行列

I — 並べ替えのインデックス 正の整数の行列

詳細

距離計量

アルゴリズム

高速ユークリッド距離アルゴリズム

参照

拡張機能

tall 配列 メモリの許容量を超えるような多数の行を含む配列を計算します。

C/C++ コード生成 MATLAB® Coder™ を使用して C および C++ コードを生成します。

GPU コード生成 GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。

GPU 配列 Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

バージョン履歴

R2023a: キャッシュを使用した高速ユークリッド距離

参考

`fasteuclidean` 距離を使用した距離計算の高速化

`X,Y` — 入力データ
数値行列

`Distance` — 距離計量
文字ベクトル | string スカラー | 関数ハンドル

`DistParameter` — 距離計量のパラメーター値
正のスカラー | 数値ベクトル | 数値行列

`CacheSize` — メガバイト単位のグラム行列のサイズ
`1e3` (既定値) | 正のスカラー | `'maximal'`

`Smallest` — 求める最小距離の個数
正の整数

`Largest` — 求める最大距離の個数
正の整数

`D` — ペアワイズ距離
数値行列

`I` — 並べ替えのインデックス
正の整数の行列

tall 配列
メモリの許容量を超えるような多数の行を含む配列を計算します。

C/C++ コード生成
MATLAB® Coder™ を使用して C および C++ コードを生成します。

GPU コード生成
GPU Coder™ を使用して NVIDIA® GPU のための CUDA® コードを生成します。

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。