正解があるか正解がないか!教師あり学習と教師無し学習

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です! 

このコラムでは、AIの学習形態について紹介しています。

AIには複数の学習形態があります。この学習形態を理解しておかないと、AIに使う分析手法などを理解することが難しくなるでしょう。そのため、分析手法を知る前に、まずはAIの学習形態について理解してください!

AIの学習形態

AIの学習形態、教師あり学習と教師なし学習
教師あり学習と教師なし学習

別のコラムでは、多量のデータから過去の特徴をつかむことを、AIを学習させると紹介しました。

このAIの学習には、2種類の形態が存在します。
その学習形態を大きく区別して「教師あり学習」と「教師なし学習」と言います。

この学習形態というのは、様々な場面で選択しなければいけません。

  • 目的に合わせて選択する
  • データに合わせて選択する
  • 使う分析手法に合わせて選択する

そのため、この学習形態を学ぶことがAIを知る1歩となることは間違いないでしょう。
この章ではまず簡単にそれぞれの学習形態の概要をつかんでもらいます。

「教師あり学習」とは、AIに正解を与えることで、特徴をつかむ学習方法です。
学生のテスト勉強で表すと問題集のようなイメージであり、必ず正解か不正解があります。

「教師なし学習」とは、AIにデータだけを与えることで、特徴をつかむ学習方法です。
学生のテスト勉強で表すと美術の絵をかくようなイメージであり、正解も不正解もありません。

それぞれの学習形態については、次の章から紹介していきます。

教師あり学習

教師あり学習のイメージ
教師あり学習のイメージ

データからどのような特徴をつかむかを、AIが自分で考えることは難しいため、どの特徴をつかんでほしいのかをAIに命令する学習形態です。

その時に使うのが「目的変数」と「説明変数」です。

データにある項目を変数と呼び、特徴をつかんでほしい対象を「目的変数」、つかむ特徴の対象を「説明変数」と呼びます。

例えば、上の図のように迷惑メールかどうかを識別したいとします。
その場合は、「過去のメールに対して、迷惑メールかどうかを表す項目」である「データの区別」が「目的変数」になります。
また、「URLが記載されているかどうかを表す項目」である「URL」や、「迷惑メールに特徴的な単語があるかを表す項目」である「特徴的な単語」が「説明変数」になります。

「目的変数」と「説明変数」を設定することにより、「目的変数」を「説明変数」を使って区別できるような特徴をつかむことができます。

教師なし学習

教師なし学習のイメージ
教師なし学習のイメージ

教師なし学習では、先ほど説明した「目的変数」と「説明変数」の区別が存在しません。

AIにデータを与え、そのデータの何かしらの共通項を見つけてと命令するのみです。

そのため、ある1つのデータを複数のグループに分けることなどが可能です。しかし、分けられたグループはAIが自分で考えて分けたグループのため、どのグループがどのように分けられているかは人間が考える必要があります。

まとめ

  • 教師あり学習
    • AIに正解を与えることで、特徴をつかむ学習方法
    • 学生のテスト勉強で表すと問題集のようなイメージであり、必ず正解か不正解がある
  • 教師なし学習
    • AIにデータだけを与えることで、特徴をつかむ学習方法
    • 学生のテスト勉強で表すと美術の絵をかくようなイメージであり、正解も不正解もない
  • 教師あり学習と教師なし学習の比較
    • 一般的には教師なし学習より教師あり学習のほうが予測精度や識別制度が高くなると言われている
    • 持っているデータに目的変数がない場合や、使いたい分析手法が教師なし学習の場合は、教師なし学習を使う
  • 選択方法
    • 学習形態は、様々な場面で選択する必要がある
    • 目的に合わせて選択する
    • データに合わせて選択する
    • 使う分析手法に合わせて選択する

学習形態について理解できたら、分析手法それぞれの理解もしやすくなると思います!
分析手法を理解する際は、ぜひどちらの学習形態なのかを意識して学ぶことをおすすめします!

参考図書

正解があるか正解がないか!教師あり学習と教師無し学習” に対して1件のコメントがあります。

コメントは受け付けていません。