AIに必要なデータって?

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です!

このコラムでは、AIを使うときに必要なデータについて紹介しています。
別のコラムでは、AIを学習させるためにデータが必要ということを説明しました。

しかし、何でもかんでもデータさえあれば、AIを使えるというわけではありません。AIに使えるデータにもある程度の条件が存在します。

データを使ってできること

データを使ってできること
データを使ってできること

まず初めにデータを使ってできる3つのことを紹介します。

  • データの集計
  • データの可視化
  • データの予測

データの集計を行うことで、全体としてどういう状況であるかを簡単に理解することができます。 p1000人分のアンケート結果が渡されて、その結果をチームに共有するときに、1000人分の用紙を同様に配るのではなく、データの集計結果を配ることで、全体としてどういう状況であるかをひと目で確認できるようになります。

データの可視化を行うことで、相対的な比較などを行う場合など、直感的に理解が可能になります。 p円グラフや棒グラフが代表的であり、様々なグラフを使用して、主張したいメッセージに適したグラフを使います。

与えられた過去のデータの傾向に基づいて、未来の値を予測することも可能です。 p最初からうまく予測できないため、入力値と出力値の両方を与え、入出力間の関係をAIに学習させるといった方法があります。

このようにデータを使えば様々なことができることが分かっていただけると思います。

それでは次の章からはAIに必要なデータの条件を紹介します。

AIに必要なデータの条件

AIに必要なデータの条件
AIに必要なデータの条件

AIを使うためには、①目的に沿った②質の高いデータを③膨大に集めることが必要です。

①目的に沿ったデータ

AIでどのようなことをしたいのか、どのようなアウトプットを求めているのかといった目的に沿ったデータが必要になります。

例えば、日ごとの売上でどのような特徴があるのかを見たい場合に、月ごとの売上データしかない場合は日ごとの特徴を確認することは不可能です。当たり前ですが売上データではなく、仕入れデータでは、売上の特徴を確認することは出来ません。

また、どのような天候と関係あるのかを確認したい場合に、天候のデータが必要です。

②質の良いデータ

AIには分析をするために質が良いと呼ばれるデータが必要です。質が良いとは、不備なく正確なデータとも言えます。

質が悪いデータの例では、データを入力する際に正しいデータを入力していないことや、データの入力ルールが人によってばらばらということが挙げられます。

正しいデータを入力していない場合は、そもそも売上が正しく入力されていなかったり、売上の日付が間違えているなどが考えられます。

データの入力ルールがばらばらの場合は、気温が何度以上で晴れとするかといったルールのことです。AIはデータに存在する晴れと晴れは同じと解釈するため、実際にその晴れと晴れが大きく違う場合は、正しい結果を得ることが難しくなります。

③多量のデータ

AIには分析をするためにたくさんのデータが必要になります。

例えば、売上データが6か月分存在するとします。その6か月のデータだけを見ると週末によくアイスクリームが売れているといった特徴を得ることができても、それは夏の場合の特徴かもしれません。冬の場債も売れているなら週末はアイスクリームが売れるといった特徴な1年中通用しますが、そうでない場合は、夏の週末はアイスクリームが売れるといった特徴になります。

また、データが1年分存在するとします。現状のコロナのようにマスクがとても売れているといった特徴を確認するには、コロナ前とコロナ後のデータがあることで、コロナ発生によりマスクが売れたといった特徴を確認することができます。

以上の3つのような条件をそろえたデータが必要です。よくデータがあるから何かしらデータ分析をしたいといった人の中にも、このような条件をそろえていないため、分析をすることが難しいといった状況はよくあります。

データの形式ごとにどのようなことがアウトプットできるのか

データ概要データ形式想定アウトプット(例)
サイトの会員データ数値系どのような人が会員になりやすいか、または会員契約を継続しやすいかを把握する
商品の発注データ数値系どのような時期に発注量が多いかを集計し、未来の発注量を予測する
工場の生産品データ画像系どのような画像は不良品になるのかを学習し、不良品の検知を行う
医療の観察データ画像系どのような画像は病気になるのかを学習し、病気の検知を行う
コールセンターのログデータ言語系どのような意見が多いかを集計する
アンケートデータ言語系どのような問い合わせが多いかを集計する
データごとの想定アウトプット

ここでは、このようなデータを持っているけど、何ができるかわからないという人のために、簡単に形式ごとの想定アウトプットを一覧にしています。

データ形式とそのデータ概要により、AIでどのようなアウトプットを出すことができるのかをまとめました。実際のビジネスでは、どのようなアウトプットを出したいかを具体的に決めることで、必要なデータ概要やデータ形式を決めることになります。そして、データ概要、データ形式、想定アウトプットが決まれば、どのAI手法を使うかを検討することができます。

ただ、上に挙げた例はただのアウトプット例のため、実際にはデータの量が足りないことや、質が低い場合はAIを使うことが難しくなります。