機械学習

 

機械学習とは?

これだけは知っておきたい3つのこと

機械学習は、近年大きな注目を集めている「AI」、「人工知能」、「ディープラーニング」といった研究分野と深い関わりがあります。機械学習は、人間や動物が経験を通して自然に学習することをコンピューターにさせようとするデータ解析テクニックです。機械学習アルゴリズムは所定の方程式をモデルとして用いることなく、データから直接的に情報を「学習」するコンピューティング手法です。 アルゴリズムは、学習に利用可能なサンプル数が増加するにつれて適応的にその性能を改善します。

なぜ機械学習が重要か

ビッグデータの増加に伴い、機械学習は以下のような分野の問題を解決するための重要な技術となっています。

機械学習を始めましょう。機械学習の基礎概念から高度なアルゴリズムまでを学べます。eBookを今すぐダウンロード

より多くのデータ、より多くの質問、より良い回答

機械学習アルゴリズムは、データの中に自然なパターンを見つけてそこから洞察を生み出し、より良い意思決定と予測を行う手助けをします。 これらは、医療診断、株取引、エネルギー負荷予測などの重要な決定を行うために毎日使用されます。 たとえば、メディアポータルは機械学習を利用して何百万もの選択肢からあなたにおすすめの歌や映画を提供しています。 小売業者は、顧客の購買行動から洞察を得るために機械学習を使用しています。

機械学習をいつ使うべきか

所定の数式や方程式が存在せず、大量のデータセットと多数の変数が含まれている複雑なタスクや課題がある場合は機械学習の使用を検討しましょう。仮に次のような状況に対処する必要がある場合は、機械学習が適しています。

顔認識や音声認識のように、手書きの決め事や方程式では複雑すぎる。

取引履歴からの不正検出のように、対象のルールが常に変化している。

自動取引、エネルギー需要予測、および消費トレンドの予測のようにデータの性質が変化し続けており、プログラムは適応する必要がある。

機械学習の仕組み

機械学習には2種類の手法が使用されます。一つは既知の入力データと出力データを用いてモデルを訓練し、将来の出力を予測できる教師あり学習。もう一方は、入力データの隠れたパターンや固有の構造を見出す教師なし学習といいます。

図1. 機械学習の手法には、教師なし学習と教師なし学習の両方が含まれます。

教師あり学習

教師あり機械学習は、不確実さがあっても証拠に基づいて予測を行うモデルを構築します。教師あり学習のアルゴリズムは、すでにある一連の入力データとそれに対する応答(出力)を用いてモデルを訓練し、新たなデータへの応答を合理的に予測できるようにするものです。予測しようとする事象について、既存の応答(出力)データがある場合は、教師あり学習を使用します。

教師あり学習では、分類や回帰の手法を用いて予測モデルを作成します。

分類手法では 、離散的な応答を予測します。例えば、電子メールが本物のメールかスパムメールか、腫瘍が癌の疑いがあるかどうか、といった場合です。分類モデルは、データをカテゴリーに分類するための学習を行います。用途としては、医療画像診断、音声認識、信用評価などが挙げられます。

データをタグ付け、カテゴリー化、または特定のグループやクラスに区分されている場合は分類手法を使用しましょう。たとえば、手書き文字認識のアプリケーションでは、文字と数字を認識するために分類が使用されます。画像処理およびコンピュータービジョンでは、 パターン認識、とくに教師なしのパターン認識技術がオブジェクト検出および画像セグメンテーションに使用されます。

分類を実行するための一般的なアルゴリズムには、 サポートベクターマシン(SVM)ブースティングおよびバギングされた決定木k 最近傍法単純ベイズ判別分析ロジスティック回帰、およびニューラルネットワークが含まれます。

回帰手法では、温度の変化や電力需要の変動など連続的な応答を予測します。一般的な用途としては、電気負荷予測とアルゴリズム取引が含まれます。

一定のレンジを持つデータを扱っている場合、または応答の性質が温度や機器の故障までの時間といった実数である場合は、回帰手法を使用します。

一般的な回帰アルゴリズムには、線形回帰非線形回帰正則化ステップワイズ回帰ブースティングされた決定木バギングされた決定木ニューラルネットワーク適応ニューロファジー学習などが含まれます。

教師あり学習を活用した心臓発作の予測

ある患者が1年以内に心臓発作を起こすか否かを医師が予測したいと考えたとします。医師は、過去の数々の患者に関する年齢、体重、身長、血圧などのデータを持っています。また、こうした過去の患者が1年以内に心臓発作を起こしたかどうかも知っています。従って問題は、持っているデータをどのように組み合わせてモデル化すれば、新たな患者が1年以内に心臓発作を起こすか否かを予測できるのか、という点となります。

教師なし学習

教師なし学習は、教師なし学習は、データに内在する隠れたパターンや固有の構造を見いだすものです。ラベル付けされた応答を持たない一連の入力データから推論を導き出すために用いられます。

クラスタリングは、最も一般的な教師なし学習手法です。これは、これは探索的データ分析により、データ内の隠れたパターンやグループ構造を発見するために用いるものです。 クラスタリングは、遺伝子配列解析、市場調査、および物体認識などに活用されています。

たとえば、携帯電話会社が携帯電話の中継塔の位置を最適化したい場合、中継塔の利用者のクラスター数を見積もるために機械学習を使うことができます。携帯電話が一度に接続する中継局は1カ所のみのためクラスタリングアルゴリズムを使用して、顧客のグループまたはクラスターが最適化された信号受信を受けるために最適な中継塔の配置を設計します。

クラスタリングを実行するための一般的なアルゴリズムには、k平均法およびkメドイド階層クラスタリング混合ガウスモデル隠れマルコフモデル自己組織化写像、ファジー c 平均クラスタリング、および減法クラスタリングなどが含まれます。

図2. クラスタリングでデータ内の隠れたパターンを見つける。

使用するアルゴリズムをどのようにして決めるか

適切なアルゴリズムを選択するのは、手に負えない難題に思えることもあります。教師あり、教師なしの機械学習アルゴリズムは何十種類もあり、学習方法もそれぞれ異なるからです。

最も優れた手法や、何にでも使える手法というものはありません。適切なアルゴリズムを探すには、試行錯誤に頼らざるを得ない部分があります。極めて経験豊富なデータサイエンティストでも、あるアルゴリズムがうまく機能 するかどうかは、結局のところ試してみないと分からないのです。ただしアルゴリズムの選択は、扱うデータのサイズや種類、データから導き出したい見解、その見解の活用方法によって決まってくる部分もあります。

図3. 機械学習の手法

教師あり学習と教師なし機械学習の選択に関するガイドラインは次のとおりです。

  • 予測(例えば、温度や株価などの連続型変数の将来値の推定)や分類(例えば、ウェブ動画に映っている自動車の型式の特定)を行うモデルの学習が必要な場合は、教師あり学習を選択します。
  • 入力データを詳しく調べる必要がある場合や、データをクラスターに分けるなど、データの適切な内部表現を見出すモデルの学習が必要な場合は、教師なし学習を選択します。

MATLABによる機械学習

データを駆使してよりよい意思決定を行うために機械学習の力をどのように活用することができるのでしょうか?MATLABは機械学習を容易にします。ビッグデータを扱うためのツールや関数と、機械学習を容易に行うためのアプリが備わったMATLABは、データ解析に機械学習を適用するうえで理想的な環境です。 MATLABを使用することで、エンジニアやデータ サイエンティストは、プレビルドされた関数、豊富なツールボックス、分類回帰クラスタリングなどのアプリケーションにすぐにアクセスできます。

MATLABを使用すると、

  • ロジスティック回帰、分類木、サポートベクターマシン、アンサンブル法、 ディープラーニングなどのアプローチを比較する。
  • モデルの改良・低次元化ツールを使用することでデータの予測精度を高める正確なモデルを作成することができます。
  • 機械学習モデルをエンタープライズシステム、クラスターおよびクラウドと統合し、リアルタイム組み込みハードウェアを対象としています。
  • 組み込み環境でのセンサー解析のための自動コード生成を実行します。
  • データ分析から実装までの統合ワークフローをサポートします。
教師あり機械学習を使用してモデルの学習とデータの分類を行う分類学習器アプリ。

興味深い機械学習の応用例

美術作品の分析能力を持つアルゴリズムの開発

ラトガース大学 美術・人工知能研究所(the Art and Artificial Intelligence Laboratory)の研究者チームは、コンピューターアルゴリズムが、人間と同じように、絵画を様式やジャンル、画家別に分類できるかどうかの検証を行いました。チームはまず、絵画の様式を分類するための視覚的特徴を特定しました。開発したアルゴリズムは、データベース内の絵画を60%の精度で様式別に分類することができ、専門家ではない一般人を上回るものとなりました。

続いて、様式の分類(教師あり学習の問題)に用いた視覚的特徴は、他の画家への影響の判定(教師なし学習の問題)にも活用可能との仮説を立てました。

彼らは、特定の対象物を見分けられるよう、Google上の画像を用いて学習させた分類アルゴリズムを用いました。そのアルゴリズムを、過去550年間に66人の画家によって描かれた1,700点を超える絵画作品を用いてテストしたところ、ディエゴ・ベラスケスの「教皇インノケンティウス10世の肖像」がフランシス・ベーコンの「ベラスケス作『教皇インノケンティウス10世の肖像』に基づく習作」に影響を与えたことを含め、関連のある作品をいとも簡単に特定することができました。

大規模ビルにおける空調設備のエネルギー使用量の最適化

オフィスビル、病院、その他大規模商業ビルの冷暖房空調システムの多くは、気候パターンの変化やエネルギーコストの変動、建物の熱特性を考慮に入れていないため非効率的なものとなっています。

こうした問題に対処するのが、BuildingIQ社のクラウドベースのソフトウェアプラットフォームです。このプラットフォームは、先進的なアルゴリズムと機械学習手法を用いて、電力計、温度計、空調設備の圧力センサーからのデータに、天候やエネルギーコストも加えた何ギガバイトにも及ぶ情報を常時処理しています。中でも機械学習は、データの細分化や、冷暖房プロセスにおけるガス、電気、蒸気、太陽光発電それぞれの相対的寄与率の決定に活用されています。BuildingIQ社のプラットフォームを活用すると、大規模商業ビルにおいて冷暖房空調設備が通常運転時に消費するエネルギー量を、10%~25%削減できます。

自動車の低速域での衝突検知

800万人超の会員を擁するRACは、英国最大の自動車関連組織の一つで、ロードサービスや保険等のサービスを個人・企業のドライバーに提供しています。

道路での故障・事故等への迅速な対応、衝突事故の削減、保険コストの低減を実現するため、RACは、車載式衝突検知システムを開発しました。このシステムには先進的な機械学習アルゴリズムが用いられており、低速走行中の衝突を検知するとともに、こうした事故と運転中によくある他の事象(減速帯や路面の穴を通過した場合など)とを区別することができます。第三者機関による検証では、RACのシステムは92%の精度で試験時の衝突を検知することが示されました。

機械学習についてさらに詳しく知る

もっと深く知るには?機械学習を始めるのに役立つ以下の資料をご覧ください。

簡単な音声信号(日本語の母音)を題材として、機械学習の幾つかの基本的な概念を説明します。
データ解析を意思決定につなげる機械学習の典型的なワークフローについて解説。out-of-memory エラー、計算時間、パラメータ設定の課題について、tall 配列やベイズ最適化の機能を使った対処例をご紹介。
多くの変数を持つ複雑なデータから適切なモデルを選択するには?これから機械学習を始める方に最適な基礎的内容と、経験者にとっても有益な高度な手法やアルゴリズムを解説。