ksdensity
を使用したグループ化データへの分布の当てはめ
この例では、関数 ksdensity
を使用してカーネル分布をグループ化された標本データに当てはめる方法を示します。
手順 1. 標本データを読み込む。
標本データを読み込みます。
load carsmall
データには、さまざまな車種およびモデルのガロンあたりの走行マイル数 (MPG
) の測定値が格納され、生産国 (Origin
)、モデル年 (Model_Year
)、その他の車両の特性によってグループ化されています。
手順 2. 標本データを生産国別にグループ化する。
米国、日本およびドイツで生産された車について、MPG
データを生産国 (Origin
) によってグループ化します。
Origin = categorical(cellstr(Origin)); MPG_USA = MPG(Origin=='USA'); MPG_Japan = MPG(Origin=='Japan'); MPG_Germany = MPG(Origin=='Germany');
手順 3. pdf を計算してプロットする。
各グループの pdf を計算してプロットします。
[fi,xi] = ksdensity(MPG_USA); plot(xi,fi,'r-') hold on [fj,xj] = ksdensity(MPG_Japan); plot(xj,fj,'b-.') [fk,xk] = ksdensity(MPG_Germany); plot(xk,fk,'k:') legend('USA','Japan','Germany') title('MPG by Origin') xlabel('MPG') hold off
プロットは、ガロンあたりの走行マイル数 (MPG
) の性能が生産国 (Origin
) によってどう異なるのかを示しています。このデータを使用すると、3 か国の中で米国の分布が最も広く、また分布のピークが最も低い MPG
値となります。日本は 3 か国の中で最も規則的な分布をしていて、左裾が若干大きくなっています。MPG
値のピークも日本が最も高くなっています。ドイツのピークは米国と日本の間にあり、ガロンあたり 44 マイル付近の 2 番目の山はデータ内に複数の最頻値がある可能性を示しています。
参考
ksdensity
| fitdist
| KernelDistribution