絶対誤差(MSE)と相対誤差(MRE)?AIモデルの精度とその求め方

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です!!

このコラムでは、AIモデルの精度検証指標を紹介します!

AIモデルの精度とは何をもって精度と呼んでいるのでしょうか?
そして、どのように精度を確認するのでしょうか?
そのような疑問に答えていきたいと思います。

精度の検証とは

精度の検証とは、AIモデルを構築した後に、どれほど良いAIが構築できたのかを検証することを指します。
AIの作り方の流れについては、他のコラム「流れを5分で理解する!AIの作り方」をご覧ください。

精度検証を行うことにより、AIモデルの精度が良いのか悪いのかの判断が可能になります。
そして、新たな工夫をしてAIモデルを再構築することや、実際に現場で使用できるAIモデルかどうかの判断を行うことが可能です。
このような判断をするために、構築したAIモデルの精度検証は重要です。

精度を定義する

精度検証を行う際に注意する点は、精度の内容を具体的に定義することです。
どのようなAIモデルを構築することで、現場の課題を解決することができるのかを定義してください。
精度検証指標には様々な種類があるため、どの精度検証指標を使用するかが重要です。

データの形式を意識する

また、どのようなデータに対して精度を検証するかを意識する必要があります。
構築したAIモデルが連続的な値を予測しているのか、カテゴリ的な値を予測しているかという2種類があります。
連続値とカテゴリ値のそれぞれに対して、精度検証の指標を使い分ける必要があります。

連続値の精度検証とは

この章では連続的な値を予測する場合の精度検証を紹介します!

連続的な値とは、-∞~∞までの中でいずれの値もとるデータのことを指します。
例えば身長や体重などが連続的な値です。
連続的な値を検証する指標を1つずつ紹介していきましょう!

平均絶対誤差(MAE:Mean Absolute Error)

平均絶対誤差(MAE)
平均絶対誤差(MAE)

平均絶対値誤差$MAE$)」は、実測値と予測値の差の絶対値を表す指標です。
連続的な値を検証する際には、一般的な指標だと思います。

$MAE$の特徴は、誤差の解釈が明確であることです。
符号を取り除いた値で予測と実測の差を表現しているため、感覚的に理解しやすい指標だと思われます。

平均二乗誤差(MSE:Mean Squared Error)

平均二乗誤差(MSE)
平均二乗誤差(MSE)

平均二乗平方根誤差(RMSE:Root Mean Squared Error)

平均二乗平方根誤差(RMSE)
平均二乗平方根誤差(RMSE)

「平均二乗誤差($MSE$)」と「平均平方二乗誤差($RMSE$)」は誤差の2乗を算出して出す指標です。
大きな誤差を重視する指標です。
外れ値などで予測と実測の差が大きい時、二乗の影響で誤差が大きいと考えます。

MAEとRMSEの違い
MAEとRMSEの違い

$MSE$と$RMSE$は絶対値誤差の2乗を使って精度を算出するため、大きい誤差が存在する場合、$MSE$と$RMSE$は$MAE$と比べて大きくなる傾向があります。

平均相対誤差(MRE:Mean Relative Error)

平均相対誤差(MRE)
平均相対誤差(MRE)

「平均相対誤差($MRE$)」は、値の範囲が違くても比較しやすい指標です。
実測と予測の相対的な差を見てるので、数値の重みを考慮できます。

例えば、商品Aが販売単価100円であり、商品Bが販売単価1000円である場合、2種類の商品に対してモデルを構築することを考えます。
販売単価の大きさに違いがあることから、商品Bのほうが、商品Aより絶対値誤差($MSE$)や平均平方二乗誤差($RMSE$)は大きく異なることが考えられます。
そのため、大きさが違う複数のものを比較するため、商品Aと商品Bの大きさを同じにし、AIモデルの精度を比較するために使われる指標が相対誤差になります。
ただし、実測値が0の場合は計算することが不可能になるため、注意が必要です。

決定係数(R2:Coefficient of Determination)

決定係数(R^2)
決定係数(R^2)

「決定係数($R^2$)」は学習データとモデルの当てはまりを表す指標です。
回帰分析の精度検証を行う場合によく使われる指標です。
回帰分析については、他のコラム「エクセルでもできる!AI初級編!回帰分析」をご覧ください。



AIモデルで予測を行う場合、学習用データではなく、評価用データでの精度評価を行うことになります。
そのため、精度評価ではあまり使用されないことが多い指標と思われます。

カテゴリ値の精度検証とは

カテゴリ値とは、それぞれを区別するための値であり、連続的な値とは違う形式の値として使われています。

例えば、男性や女性を表す性別や、商品Aと商品Bの商品名をカテゴリ値と呼びます。
次の章からはこのカテゴリ値の精度検証指標を紹介していきます。

正解率

正解率
正解率

「正解率」とは、実測と予測が一致している割合を表しており、直感的にわかりやすい指標です。

カテゴリ予測の際は、よく使われる指標ですが、正解率だけを使って現場に沿った精度を確認することは不十分なことが多いです。
つまり、実測値を予測できている確率か、予測値が当たっている確率か、どちらを重視すればいいのか状況によって変化することに注意してください。
例えば、不良品か正常品を予測する場合に、100件中、不良品が1件の場合、全て正常品と予測することによって、正解率は99%になります。
しかし、不良品か正常品かを予測したい場合、正常品を予測することが重要ではなく、不良品を正しく不良品と予測することが重要なケースが多いです。
そのため、正解率だけでなく、データの特性や構築したAIモデルの中身を理解するための指標が重要です。

上記のようなケースに使われるのが、下記の2種類の指標です。

  • 適合率(Precision):予測結果が正確であるか、誤検知にどれだけ強いかを表す指標
  • 再現率(Recall):取りこぼしなく予測できたか、見逃しにどれだけ強いかを表す指標

その詳細を紹介していきます。

混合行列とは

混合行列
混合行列

適合率(Precision)と再現率(Recall)の関係

  • 適合率(Precision):予測結果が正確であるか、誤検知にどれだけ強いかを表す指標
  • 再現率(Recall):取りこぼしなく予測できたか、見逃しにどれだけ強いかを表す指標

適合率(Precision)が高い場合

適応率(Precision)
適応率(Precision)

適合率が高い場合、下記のように解釈することができます。

  • 適合率(Precision)が高いため、〇の予測は正確にできている
  • 再現率(Recall)が低いため、〇の実測を取りこぼしている時がある

例えば、商品レコメンドやスパムメール検出など正確性を重視する場合はPrecisionを重視した精度評価がおすすめです。

再現率(Recall)が高い場合

再現率(Reall)
再現率(Reall)

再現率が高い場合、下記のように解釈することができます。

  • 適合率(Precision)が低いため、〇の予測を間違えている時がある
  • 再現率(Recall)が高いため、〇の実測の取りこぼしがない

例えば、病気の診断や不良品の検出など取りこぼしがNGな場合はRecallを重視した精度評価がおすすめです。

F値

F値
F値

「F値」は、PrecisionとRecallの調和平均であり、両方ともバランス良く考慮した指標です。

調和平均
調和平均

調和平均とは、「逆数の平均の逆数」を表しており、往路と復路の全体での平均速度を求める場合などに使われます。
それぞれの値の逆数に対して平均値を求める際に利用されます。

F値の例
F値の例

先ほどの例の場合、F値を使うことで、適合率(Precision)と再現率(Recall)のどちらも考慮して精度を確認することが出来ます。

AICとBIC

最後に、連続値、カテゴリ値のどちらにも使用できる指標を紹介します。
それが、AICとBICです。
AICやBICはモデルの良さを評価するための指標で値が小さいほど良い指標です。

AIC(赤池情報量規準)

AIC
AIC

BIC (ベイズ情報量規準)

BIC
BIC

「AIC」はサンプルサイズの大きさにかかわらずペナルティの強さは一定である指標です。
「BIC」はサンプルサイズが大きくなるとペナルティが強くなる指標です。
2種類の使い分けについては難しい議論がされており、厳密な正解がないことから、下記のように使用されることが多いです。

  1.AICとBICを両方使う
  2.セットで値が小さいモデルを選ぶ

まとめ

  • 平均絶対値誤差($MAE$)
    • 実測値と予測値の差の絶対値を表す指標
  • 平均二乗誤差($MSE$)、平均平方二乗誤差($RMSE$)
    • 誤差の2乗を表す指標
  • 平均相対誤差($MRE$)
    • 値の範囲が違くても比較しやすい指標
  • $R^2$(決定係数)
    • 学習データとモデルの当てはまりを表す指標
  • 正解率
    • 実測と予測が一致している割合を表す指標
  • 適合率($Precision$)
    • 予測結果が正確であるか、誤検知にどれだけ強いかを測定する指標
  • 再現率($Recall$)
    • 取りこぼしなく予測できたか、見逃しにどれだけ強いかを測定する指標
  • F値
    • $Precision$と$Recall$の調和平均であり、両方ともバランス良く考慮した指標
  • AIC
    • サンプルサイズの大きさにかかわらずペナルティの強さは一定である指標
  • BIC
    • サンプルサイズが大きくなるとペナルティが強くなる指標