データの区別方法 ~データの尺度とその水準~

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です!

このコラムでは、データの尺度とその水準について紹介します!
データと一言で言っても、一概に同じデータではありません。
様々なデータがあり、それぞれデータの特徴や性質が違ってくるため、データによって分析の方法が変わってきます。
データの区別をしっかりと理解して、データに沿った分析を行えるようにしましょう!

数値、言語、画像のデータ

サイトの記事全体像
サイトの記事全体像

データを大きく区別すると、3種類のデータのどれかに該当することが多いです。

  • 数値データ
  • 言語データ
  • 画像データ

まずは分析を行う前にどのデータに該当するかを判断し、データの特性に沿った分析を行うことを考えてください。
1つずつどのようなデータが存在しているかを例とともに紹介していきます。

数値データ

数値データ
数値データ

1つ目は数値データです。
売上や人数などの連続的な値に関するデータです。
この数値データを使用して、新しいデータの予測をしたいといった要望が多いと思います。

言語データ

言語データ
言語データ

2つ目は言語データです。
テキストデータとも呼ばれます。
コールセンターの問い合わせやアンケートの自由記述など、文章で書かれたデータです。
この言語データを使用して、どのような内容がデータに記載されているかを把握したいといった要望が多いと思います。

画像データ

画像データ
画像データ

3つ目は画像データです。
顔や車などの対象物が写っている画像データです。
この画像データを使用して、新しいデータの判別をしたいといった要望が多いと思います。

カテゴリデータと連続値データ

カテゴリデータと連続値データ
カテゴリデータと連続値データ

データは、数値データと言語データが組み合わさって1つのデータになっていることが多いです。
例えば、上の例では性別は言語データですし、平均気温は数字データに該当します。
これらはカテゴリデータと連続値データと呼ばれる区別も可能です。

カテゴリデータ

カテゴリデータとは、データが言語データで表され、カテゴリを表しているデータです。
データ同士の「質」が違うとを表しています。
下記に例を記載してみました。

  • 性別
  • 名前
  • 住んでいる地域
  • アンケートの選択肢回答

カテゴリデータは、数値を表していないため、計算に直接利用することが出来ないのが特徴です。
計算に利用するためには、カテゴリデータを数値を表す連続値へ変換する必要があります。
変換方法については、他のコラム「テキストを数値として考える!テキストマイニングの方法とは」をご参考にしてください。

連続値データ

連続値データとは、データが数値で表されているデータです。
データ同士の「量」が違うことを表しています。
下記に例を記載してみました。

  • 身長
  • 体重
  • 年齢
  • 降水量

連続値データは、数値を表しているため、計算に直接利用することができるのが特徴です。

つまり、連続値データとカテゴリデータは以下のような特徴を持っています。

  • 連続値データ:数えられるデータ
  • カテゴリデータ:数えられないデータ

データを使う時の4つの尺度

データを使う時の4つの尺度
データを使う時の4つの尺度

カテゴリデータと連続値データをさらに細かく区別することも可能です。
データの値が持つ性質を意識して、データを整理したものを尺度と呼びます。
ここでの尺度とは「物事を評価するための基準」という意味で使われています。
尺度は全部で4つの尺度があり、それぞれ特徴を持っています。

尺度の特徴
尺度の特徴
  • カテゴリデータ:数えられないデータ
    • 名義尺度:順番に意味がないカテゴリデータ
    • 順序尺度:順番に意味があるカテゴリデータ
  • 連続値データ:数えられるデータ
    • 間隔尺度:間隔だけに意味がある連続値データ、0は物質そのものが存在するという意味
    • 比例尺度:絶対的な意味をもつ連続値データ、0は物質そのものが存在しないという意味

尺度は全部で4つの尺度がありますが、それぞれ順番があり、持ち合わせている意味が違います。
低い順番から名義尺度 < 順序尺度 < 間隔尺度 < 比例尺度です。
尺度が上位であればあるほど、データの持ち合わせる意味が増えていきます。
つまり、上位の尺度である比例尺度はそれよりも下位である名義尺度や間隔尺度の意味も持ち合わせています。

尺度別に使用できる基本統計量
尺度別に使用できる基本統計量

また、尺度によって利用できる基本統計量が違うという特徴があります。

名義尺度

名義尺度は、順番に意味がないカテゴリデータです。
単純にデータを「区別すること」が目的のため、データが同じか違うかに意味があります

例えば、性別の男性と女性には順番がありません。
名義尺度は、男性何件、女性何件など、頻度を集計することに意味があります。

順序尺度

順序尺度は、順番に意味があるカテゴリデータです。
例えば、アンケートの選択式回答などが存在します。

アンケートの設問は人間が定められており、「とても満足した」と「満足した」がどれくらい差があるのかはわかりません。
名義尺度と同様に、頻度を集計することに意味がありますが、合計点数などには意味がありません。

間隔尺度

間隔尺度は、間隔だけに意味がある連続値データです。
例えば、平均気温などが存在します。

間隔尺度はどの間隔も一定であり、比例的な意味を持っていないことが特徴です。
そのため、間隔尺度である平均気温については、比率を使うことが出来ません。
つまり、「前日の気温と3℃の差がある」と考えることは可能ですが、「前日の気温と比べて今日の気温は2倍だ」と考えることができません。

温度は摂氏温度と絶対温度があり、摂氏温度の10℃と20℃は2倍と考えれそうですが、絶対温度で考えると、283℃と293℃となり2倍にはなっていないことから、比率を使えないという意味が分かりやすいと思います。

また、0の定義が存在するという特徴も持っています。
温度が0℃というのは、温度が無いという解釈ではなく、温度が0℃という解釈になります。
この0の定義があるかないかという特徴が、間隔尺度か比例尺度かを見極めるポイントです。

比例尺度

比例尺度は、間隔と比率に意味がある連続値データです。
また、間隔尺度とは違い、0は物質そのものが存在しないという意味を表します。

例えば、売上高などが存在します。
「前日の売上と比べて今日の売上は2倍だ」と考えることができ、0は売上が存在しないことを表します。

まとめ

  • データは大きく3つの区別が可能
    • 数値データ
    • 言語データ
    • 画像データ
  • カテゴリデータ:数えられないデータ
    • 名義尺度:順番に意味がないカテゴリデータ
    • 順序尺度:順番に意味があるカテゴリデータ
  • 連続値データ:数えられるデータ
    • 間隔尺度:間隔だけに意味がある連続値データ、0は物質そのものが存在するという意味
    • 比例尺度:絶対的な意味をもつ連続値データ、0は物質そのものが存在しないという意味