流れを5分で理解する!AIの作り方

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です!

このコラムでは、AIの作り方についての記事を紹介しています。
どのようにしてAIが作られていくかといった全体像だけでも理解することで、AIがより近い存在になることでしょう。

AIの作り方の流れ

AIの作り方の流れ
AIの作り方の流れ

まず初めにAIの作り方の流れを説明します。ここでは大きく6つの段階で説明をすることにします。

段階概要
AIプランニングAIをどのように使いたいか、何をAIで解決したいのかなどを検討します。
データの準備AIプランニングで検討した使い方に合わせて、必要なデータを準備します。
データの前処理AIに有用な形式へデータを変換します。
モデルの構築検討したAIプランニング、準備したデータに合わせてAI手法を選択し、モデルの構築をします。
精度検証構築したモデルの精度を確認します。
実行現場で構築したAIを運用していきます。
AIの段階とその概要

AIは大きく6つの段階で作られていきます。各段階の詳しい説明は次の章からご紹介します。

AIプランニング

AIの作り方の流れ ~AIプランニング~
AIの作り方の流れ ~AIプランニング~

まず初めはAIプランニングです。

ここでは、AIをどのように使いたいか、何をAIで解決したいのかなどを検討します。

一般的な商品やシステムを考える場合と同じことが、AIにも必要です。あるシステムを企画する場合は、なぜそのシステムが必要なのかといったことや、そのシステムで何を解決したいのかといったことを決める必要があります。このプランニングをしっかり行っていないと、実際にAIを作るときに、どのようなAIを作ればいいのかなど、迷子になってしまうためとても重要な段階になります。

ここではAIの専門的な知識を深く理解していなくても、他のシステム企画と同様に行っていくことで、プランニングができる人もいます。

データの準備

AIの作り方の流れ ~データの準備~
AIの作り方の流れ ~データの準備~

AIプランニングが終わり、どのようなアウトプットをしたいのかが決まれば、次にデータを準備する必要があります。AIプランニングで検討した使い方に合わせて、必要なデータを準備します。ここでは、使う分析手法やどのように分析するかも簡単にイメージしながら必要なデータを検討し、取得します。

詳しくは、別のコラムで紹介していますので、ここでは割愛します。

データの前処理

AIの作り方の流れ ~データの前処理~
AIの作り方の流れ ~データの前処理~

そして、使うデータが決まればモデルの構築を行う前に、データの前処理を行います。

現在世の中に蓄積されているデータというのは、絶対に近いほど汚いデータです。汚いというのは、汚れているという意味ではなく、整理整頓されていないという意味です。例えば、空白が多いデータであったり、条件によって値の意味が変わってしまうデータなどのことを意味しています。

このように汚いデータをAIに有用なきれいな形式へデータを変換することを、データの前処理を行うと言います。

モデルの構築

AIの作り方の流れ ~モデルの構築~
AIの作り方の流れ ~モデルの構築~

そしてこの段階で、やっとAIを作っていく段階になります。作るAIのことを専門用語で「モデル」といい、AIを作ることを専門用語で「モデル構築」と呼びます。このモデルの構築では、ここまで検討してきたAIプランニング、準備したデータに合わせてAIの分析手法を選択し、モデルの構築をします。

分析手法については、別のコラム「数値系」で紹介していますので、ここでは割愛します。

精度検証

AIの作り方の流れ ~精度検証~
AIの作り方の流れ ~精度検証~

モデルの構築が終わったら、次は構築したモデルの精度を検証します。このステップが確認したモデルの精度があまり良くない(低い)場合は次ステップの実行に移ることが難しいため、ここで精度を確認することが重要になります。また、精度が悪い場合はモデルのAI手法を変更することや、データを変更・追加することなどを検討し、精度向上を図ります。

それではどのように精度検証を行うのでしょうか?精度検証では、まず何を正解、不正解とするのかといった指標を決める必要があります。この指標というのは使っているデータの特性によって大きく異なってきます。

数値系データの場合は、MSE(平均二乗誤差)やRMSE(平均平方二乗誤差)やME(絶対値誤差)などの指標をもとに、実際のデータ値とAIモデルが出力する予測値を比較することで、モデルの精度を確認します。

画像系データの場合は、実際のデータ値とAIモデルが出力する予測値を比較する正解率や、実際のデータ値の中でどのくらい予測値が一致しているかといった再現率などをもとに、モデルの精度を確認します。

言語系データの場合は、精度を確認できない場合が多いため、ここの段階は割愛することが多いです。

実行

AIの作り方の流れ ~実行~
AIの作り方の流れ ~実行~

そしてモデルの構築が終わり、一定の精度を検証することができたら、最後は現場で構築したAIを運用していきます。ここでは毎日や毎月発生するデータを使って、モデルを運用していきます。モデルの構築をしただけで満足してしまうことも多いですが、これでは服を買ったのにもかかわらず、タンスの奥にしまってしまうのと同様です。せっかくここまできたのですから、実際に現場で運用することで初めてモデルを構築した意味が出てきます。

実際に運用していく中で、ある程度の期間がたった場合は、新しくデータが蓄積されているため、モデルを再構築することで、精度を向上するかを検討することも考えられます。また、モデルの再構築を行わない場合は、そのモデルは昔のデータに合わせたモデルのため、精度が悪くなってしまう危険性もあるため、要注意です。

現在の第3次AIブームでは、モデルの構築をするが、精度検証をした結果あまり使えないモデルになってしまったということも多く、この最後の段階にスムーズにいけるかいけないかが、第3次AIブームがこのまま続くか、氷河期になってしまうかの瀬戸際だと思っています。