どのモデルの精度が高い?精度の差を証明する3つの統計的仮説検定!

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です! 

このコラムでは、AIモデルの精度の差を証明する統計的仮説検定を紹介します!

符号検定

AIモデルの精度比較
AIモデルの精度比較

符号検定は、対応のある2つの結果に対して、それらの間に差が定義できない場合に使う統計的仮説検定です!
つまり、AとBのどちらがどれくらい良いかが定義できない場合に使います。

符号検定では各ペアの差の符号(+or-)に注目して検定し、この+と-の数には有意に差があるといってよいかを調べる検定です。
符号と呼ぶ名前からわかる通り、AとBの数値の差ではなく、数値の大小から検定を行います。
分類正解率の検定にはこの符号検定が使われることが多いです!

検定の手順

全体の流れ

  1. 仮説の設定
  2. 確率を求める
    • AとBの差を計算する
    • 差が+(プラス)、-(マイナス)かを計算する
    • +、-記号で少ない方の数を選ぶ
  3. 判定
    • 符号検定表で有意水準5%の数値と比べる
    • 差はあるのかないのか、判定を下す

仮説の設定

帰無仮説(H0)は、「2群間に差がない」と仮定します。
対立仮説(H1)は、「2群間に差がある」と仮定します。

確率を求める

2グループ間に差がない場合、+と-の符号がでる確率は両方ともになります。
もし、2グループ間に差がある場合、+と-の符号がでる確率はどちらかに偏ることになります。

符号検定では+と-の符号を比較するため、各値の差が0となり=になる値はデータから除外します。
また、符号の数が少ない方の個数をrとします。

帰無仮説が成立すると仮定して考えた場合、rが出現する確率はであり、二項分布に従います。
この計算により、rがその値以上の極端な値をとる確率を求めていきます。

データの数nが5<n≦25ならば直接計算して確率を求めます。
しかし、n>25の場合、下の式より平均値と標準偏差を出して、その後z値を求めていきます。

符号検定の統計量の求め方
符号検定の統計量の求め方

判定

z値を求めた後、標準正規分布表から確率Pを求めます。

P≧αの場合、帰無仮説を棄却しません。
P<αの場合、帰無仮説を棄却すると判定し、AとBに違いがあるという判断になります。

ウィルコクソン(Wilcoxon)の符号付順位和検定

ウィルコクソン(Wilcoxon)の符号付順位和検定は、対応のある2つのグループに対して、それらの間に差が定義できる場合に、検定を行う統計的仮説検定です!
例えば回帰モデルを構築した後、差がはっきりと定義できている場合に、この検定を使うことがあります。

Wilcoxon符号付順位検定の統計量は、符号付き順位の合計を使用します。
符号付き順位とは、下記のように定義される値です。

  1. 差の絶対値⎟Dj⎟を、小さい値から順番に順位付けする
  2. この時、差が0のデータがあった場合も、順位付けにそれらの値を含め、順位は1から始める
  3. 差の絶対値に同じ値があった場合には、それらに平均順位(中間順位)を与える

Djの順位(中間順位)をRjとすると、Djの符号付順位は下記のように定義される値です。

  1. Djが正の場合、符号付順位はRjとなる
  2. Djが0の場合、符号付順位は0となる
  3. Djが負の場合、符号付順位はRjとなる

符号付順位の統計量Wは下記のように計算されます。

符号付順位の統計量の求め方
符号付順位の統計量の求め方

d0は、0と等しい観測値の個数であり、R+は、正の符号付順位の合計とすると、下記の式が成立します。

Sの求め方
Sの求め方

ウィルコクソン(Wilcoxon)の符号付順位検定のp値

N ≤ 20の場合、正確なp値が計算されます。
N > 20の場合、下記のように、Studentのt分布に近似して計算します。

帰無仮説の場合、Sの平均はゼロであり、Sの分散は下記の式で計算されます。

Sの分散の求め方
Sの分散の求め方

Var(S)の計算式の最後の和は、同順位のペアに対する修正です。
i > 0に対するdiは、符号付順位が0以外&符号付順位が同じグループに属するデータの個数を表します。
符号付順位に同順位が無い場合、すべてがdi = 1となるので、この項は0になります。

また、下記の式で求められた統計量tが、自由度N – 1のt分布で近似されます。

検定量tの求め方
検定量tの求め方

t検定

t検定は、それぞれの結果が正規分布と仮定した場合、それぞれの代表値の間に差があるかどうかを検定する統計的仮説検定です!
厳密に検定を行うには、コルモゴロフ・スミルノフ検定など、正規分布に従っているかどうかを検定する必要があります。

対応がある場合、対応が無い場合にも使えるため、比較的汎用性の高い統計的仮説検定だと思います。
t検定については、他コラム「具体例で学ぶ!平均値の差を検定するt検定」をご覧ください。

まとめ

  • AIモデルの精度の差を証明する統計的仮説検定
  • 符号検定
    • 対応のある2つの結果に対して、それらの間に差が定義できない場合の検定
  • ウィルコクソンの符号付順位和検定
    • 対応のある2つの結果に対して、それらの間に差が定義できる場合の検定
  • t検定
    • 結果を正規分布と仮定し、それらの間に差があるかどうかを検定する

参考図書