分類精度の評価について
正解率だけが精度じゃない！

2016/09/10 機械学習名古屋第6回勉強会
後藤俊介 ( @antimon2 )

自己紹介¶

名前：後藤俊介
所属：有限会社来栖川電算
言語：Python, Julia, Ruby, Scala（勉強中）, …
twitter: @antimon2
Facebook: antimon2
GitHub: antimon2

シチュエーション¶

キノコが10個ある。
いくつかは安全なキノコで、いくつかは毒キノコ。
できるだけ安全なキノコだけを選びたい。
かつ、できる限りたくさんのキノコを選びたい。

例えば。¶

安全なキノコは4個（毒キノコが6個）あった。
（「○」が安全なキノコ、「×」が毒キノコ↓）

○

×

○

×

※↑選ぶ人はどれが安全か知らない。

選んでみた。¶

10個中 5個のキノコを選んだ。

正解	○	○	○	×	×	○	×	×	×	×
選択	○	○	○	○	○	×	×	×	×	×

※ うち3個が安全なキノコ、2個が毒キノコだった

表にしてみた。¶

	安全なキノコ	毒キノコ
選んだキノコ	3	2
選ばなかったキノコ	1	4

ここで問題¶

この人は、どれくらいがんばった？

（＝どう評価すれば良い？）

評価指標¶

正解率 (Accuracy)¶

正解	○	○	○	×	×	○	×	×	×	×
選択	○	○	○	○	○	×	×	×	×	×

$$ {\rm Accuracy} = \frac{7}{10} = 0.7 $$

全キノコのうちの、正解だったキノコの割合。
- キノコ10個のうち、7個が正解 → 正解率は 0.7（70%）
「どれだけ『正しく判別』できたか」という、一番わかりやすい指標。一番よく使われる。

表の方で考えてみる。¶

	安全なキノコ	毒キノコ
選んだキノコ	3	2
選ばなかったキノコ	1	4

$$ {\rm Accuracy} = \frac{3 + 4}{3 + 2 + 1 + 4} = 0.7 $$

※ 簡単ですね！
※ でも、選択（抽出）の『精度』って、本当にこれで良いですか？

適合率 (Precision)¶

	安全なキノコ	毒キノコ
選んだキノコ	3	2
選ばなかったキノコ	1	4

$$ {\rm Precision} = \frac{3}{3 + 2} = 0.6 $$

選んだキノコのうちの、正解だったキノコ（＝安全なキノコ）の割合。
「どれだけ『見る目』があるか」を測る指標。
- 適合率が高い＝選んだキノコはほとんど安全なキノコ
- 適合率が低い＝選んだキノコはかなり毒キノコ

※ 正解率が 100% ならば、適合率は 100%。
※ 適合率のことを単に「精度」とも言う（英語では同じく Precision）。
※ TensorFlow の公式チュートリアルのサンプルでは、よく "Precision"（精度）という名称で、こっちじゃなくて実際には Accuracy になってたりするので注意！

Q: 適合率が 100% なのに、正解率が 100% でないのは、どんな場合？

再現率 (Recall)¶

	安全なキノコ	毒キノコ
選んだキノコ	3	2
選ばなかったキノコ	1	4

$$ {\rm Recall} = \frac{3}{3 + 1} = 0.75 $$

安全なキノコのうちの、正解だったキノコ（＝選んだキノコ）の割合。
「どれだけ『取りこぼしがない』か」を測る指標。
- 再現率が高い＝安全なキノコをほぼ全部選び出している
- 再現率が低い＝安全なキノコをかなり取りこぼしている

※ 正解率が 100% ならば、再現率は 100%。
※ 再現率は「感度 (Sensitivity)」とも言う。
※ 適合率と再現率は トレードオフ の関係。

Q: 再現率が 100% なのに、正解率が 100% でないのは、どんな場合？

F-値 (F1-Score)¶

$$ \begin{eqnarray} {\rm F}_1 &=& \frac{2}{\frac{1}{\rm Precision} + \frac{1}{\rm Recall}}\\ &=& \frac{2 \times {\rm Precision} \times {\rm Recall}}{{\rm Precision} + {\rm Recall}}\\ &=& 0.66666\dots \end{eqnarray} $$

適合率と再現率の2つのバランスを見る指標。
F-値＝適合率と再現率の 調和平均
- F-値が高い＝適合率も再現率もそれなりに高くてバランスが取れている
- F-値が低い＝適合率・再現率の少なくともどちらか（あるいは両方）が低い

※ 調和平均：逆数の平均（相加平均）の逆数。
※ 正解率が 100% ならば、F-値は 100%。
※ このF-値 (F1-Score) は、recall に $\beta^2$ の重みを乗せた重み付き調和平均で定義される Fβ-Score の特殊なもの（β=1）。

ここで問題（再）¶

この人は、どれくらいがんばった？

（＝どう評価すれば良い？）

（＝どの評価指標で評価すれば良い？）

混同行列¶

※ 問題の答えは置いといて、先ほどの表についてちょっと改めて説明してみます。

混同行列 (Confusion Matrix)¶

	安全なキノコ	毒キノコ
選んだキノコ	3	2
選ばなかったキノコ	1	4

コレのこと。

※ データの分類で「うまくできた」「できなかった」を数え上げたクロス集計表のこと。

真陽性 (True Positive), 偽陽性 (False Positive),
偽陰性 (False Negative), 真陰性 (True Negative)

	安全なキノコ	毒キノコ
選んだキノコ	3	2
選ばなかったキノコ	1	4

真(True) ＝正しい、偽(False) ＝間違い
陽(Positive) ＝選んだ、陰(Negative) ＝選ばなかった
これらの組合せ。

※ あまり日本語で「真陽」とか「偽陰」とか言わない。以降も英語の "True Positive" とか "False Negative" とかを用いる。

True Positive¶

	安全なキノコ	毒キノコ
選んだキノコ	3	2
選ばなかったキノコ	1	4

$$ {\rm TP} = 3 $$

正しく選ばれた事象の数（＝安全なキノコを選んだ個数）

※ 選択（＝Positive）が正しかった（＝True）、ということ。

False Positive¶

	安全なキノコ	毒キノコ
選んだキノコ	3	2
選ばなかったキノコ	1	4

$$ {\rm FP} = 2 $$

間違って選ばれた事象の数（＝毒キノコを選んだ個数）

※ 選択（＝Positive）が間違っていた（＝False）、ということ。

False Negative¶

	安全なキノコ	毒キノコ
選んだキノコ	3	2
選ばなかったキノコ	1	4

$$ {\rm FN} = 1 $$

間違って選ばれなかった事象の数（＝選ばなかったうちの安全なキノコの個数）

※ 選択しなかったこと（＝Negative）が間違っていた（＝False）、ということ。

True Negative¶

	安全なキノコ	毒キノコ
選んだキノコ	3	2
選ばなかったキノコ	1	4

$$ {\rm TN} = 4 $$

正しく選ばれなかった事象の数（＝選ばなかったうちの毒キノコの個数）

※ 選択しなかったこと（＝Negative）が正しかった（＝True）、ということ。

混同行列 (Confusion Matrix) 改¶

	+	-
(+)	TP	FP
(-)	FN	TN

評価指標の再定義¶

※ TP, FP, FN, TN はそれぞれ、"True Positive", "False Positive", "False Negative", "True Negative" の頭文字。

Accuracy¶

	+	-
(+)	TP	FP
(-)	FN	TN

$$ {\rm Accuracy} = \frac{{\rm TP} + {\rm TN}}{{\rm TP} + {\rm FP} + {\rm FN} + {\rm TN}} $$

Precision¶

	+	-
(+)	TP	FP
(-)	FN	TN

$$ {\rm Precision} = \frac{\rm TP}{{\rm TP} + {\rm FP}} $$

Recall¶

	+	-
(+)	TP	FP
(-)	FN	TN

$$ {\rm Recall} = \frac{\rm TP}{{\rm TP} + {\rm FN}} $$

F1-Score¶

	+	-
(+)	TP	FP
(-)	FN	TN

$$ \begin{eqnarray} {\rm F}_1 &=& \frac{2}{\frac{1}{\rm Precision} + \frac{1}{\rm Recall}}\\ &=& \frac{2{\rm TP}}{2{\rm TP} + {\rm FP} + {\rm FN}} \end{eqnarray} $$

※ 実際には元の定義のように precison と recall から計算することが多い。

実装例¶

In [1]:

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import numpy as np

※ NumPy を利用して、混同行列から TP/FP/FN/TN, Accuracy, Precision, Recall, F1Score をそれぞれ計算する実装例を示す。

準備：混同行列¶

In [2]:

cm = np.array([
        [3, 2],
        [1, 4]
    ]).astype(np.int64)

混同行列から TP/FP/FN/TN を取得¶

In [3]:

def get_tfpn(cm):
    # assert cm.shape == (2, 2)
    return tuple(cm.reshape([4]))

In [4]:

TP, FP, FN, TN = get_tfpn(cm)
(TP, FP, FN, TN)

Out[4]:

(3, 2, 1, 4)

混同行列から Accuracy 計算¶

In [5]:

def calc_accuracy(cm):
    # assert cm.shape == (2, 2)
    TP, FP, FN, TN = get_tfpn(cm)
    return (TP + TN) / (TP + FP + FN + TN)

In [6]:

calc_accuracy(cm)

Out[6]:

0.69999999999999996

混同行列から Precision 計算¶

In [7]:

def calc_precision(cm):
    # assert cm.shape == (2, 2)
    TP, FP, _, _ = get_tfpn(cm)
    return TP / (TP + FP)

In [8]:

calc_precision(cm)

Out[8]:

0.59999999999999998

混同行列から Recall 計算¶

In [9]:

def calc_recall(cm):
    # assert cm.shape == (2, 2)
    TP, _, FN, _ = get_tfpn(cm)
    return TP / (TP + FN)

In [10]:

calc_recall(cm)

Out[10]:

0.75

混同行列から F1-Score 計算¶

In [11]:

def calc_f1score(cm):
    # assert cm.shape == (2, 2)
    TP, FP, FN, _ = get_tfpn(cm)
    return 2 * TP / (2 * TP + FP + FN)

In [12]:

calc_f1score(cm)

Out[12]:

0.66666666666666663

多値分類の評価指標¶

シチュエーションその2¶

金メダル・銀メダル・銅メダルが合計 30個ある。デザインは同じ。
誰かがいたずらで全部真っ赤なペンキを塗ってしまった。
どれが金メダルか・銀メダルか・銅メダルか、仕分けしたい。

分類結果（＝混同行列）¶

	金メダル	銀メダル	銅メダル
たぶん金メダル	7	0	3
たぶん銀メダル	1	8	1
たぶん銅メダル	0	1	9

TP, FP, FN, TN¶

まず「金メダル」に注目してみる。¶

	金メダル	銀メダル	銅メダル
たぶん金メダル	7	0	3
たぶん銀メダル	1	8	1
たぶん銅メダル	0	1	9

「金メダルじゃない」をまとめる。¶

	金メダル	金メダルじゃない
たぶん金メダル	7	3
たぶん金メダルじゃない	1	19

「金メダルかどうか」で TP〜TN が計算できる。¶

$$ \begin{eqnarray} {\rm TP}_G &=& 7\\ {\rm FP}_G &=& 3\\ {\rm FN}_G &=& 1\\ {\rm TN}_G &=& 19 \end{eqnarray} $$

他のメダルでも同様に。¶

	TP	FP	FN	TN
金メダル	7	3	1	19
銀メダル	8	2	1	19
銅メダル	9	1	4	16

※ 各クラス（この場合「金メダル」「銀メダル」「銅メダル」それぞれ）の視点で TP/FP/FN/TN を計算する！
　これを後で利用する！

正解率（全正解率）¶

	金メダル	銀メダル	銅メダル
たぶん金メダル	7	0	3
たぶん銀メダル	1	8	1
たぶん銅メダル	0	1	9

$$ \begin{eqnarray} {\rm Accuracy} &=& \frac{\sum_i {\rm TP}_i}{{\rm TP}_G + {\rm FP}_G + {\rm FN}_G + {\rm TN}_G}\\ &=& 0.8 \end{eqnarray} $$

全メダルのうちの、正解だったメダルの割合。
（混同行列上は）2値分類のときと同じ考え方。最もシンプルな指標。

平均正解率¶

	TP	FP	FN	TN
金メダル	7	3	1	19
銀メダル	8	2	1	19
銅メダル	9	1	4	16

$$ \begin{eqnarray} {\rm AvgAccuracy} &=& \frac{\sum_i \frac{{\rm TP}_i + {\rm TN}_i}{{\rm TP}_i + {\rm FP}_i + {\rm FN}_i + {\rm TN}_i}}{l}\\ &=& 0.866666\dots \end{eqnarray} $$

各メダルごとに正解率を出して、その平均（相加平均）を取る。
「どのクラス（この場合メダル）もそれなりによく正解しているか」が分かる指標。

平均適合率（マクロ適合率）¶

	TP	FP	FN	TN
金メダル	7	3	1	19
銀メダル	8	2	1	19
銅メダル	9	1	4	16

$$ \begin{eqnarray} {\rm Precision_M} &=& \frac{\sum_i \frac{{\rm TP}_i}{{\rm TP}_i + {\rm FP}_i}}{l}\\ &=& 0.8 \end{eqnarray} $$

各メダルごとに適合率を出して、その平均（相加平均）を取る。
「どのクラス（この場合メダル）もそれなりによく『見る目』があるか」が分かる指標。

平均再現率（マクロ再現率）¶

	TP	FP	FN	TN
金メダル	7	3	1	19
銀メダル	8	2	1	19
銅メダル	9	1	4	16

$$ \begin{eqnarray} {\rm Recall_M} &=& \frac{\sum_i \frac{{\rm TP}_i}{{\rm TP}_i + {\rm FN}_i}}{l}\\ &=& 0.818732\dots \end{eqnarray} $$

各メダルごとに再現率を出して、その平均（相加平均）を取る。
「どのクラス（この場合メダル）もそれなりによく『取りこぼしがない』か」が分かる指標。

平均F-値（マクロF-値）¶

$$ \begin{eqnarray} {\rm F_{1M}} &=& \frac{2 \times {\rm Precision_M} \times {\rm Recall_M}}{{\rm Precision_M} + {\rm Recall_M}}\\ &=& 0.809257\dots \end{eqnarray} $$

平均適合率と平均再現率とで計算する F-値。

※ 他にも指標はあるけれど、取り敢えずこのあたりを押さえておけば。

実装例¶

※ NumPy を利用して、混同行列から TP/FP/FN/TN, Accuracy, その他をそれぞれ計算する実装例を示す。

準備：混同行列¶

In [13]:

cm = np.array([
        [7, 0, 3],
        [1, 8, 1],
        [0, 1, 9]
    ])

混同行列から TP/FP/FN/TN を（リストで）取得¶

In [14]:

def get_tfpn(cm):
    tp = np.diag(cm)
    fp = np.sum(cm, axis=1) - tp
    fn = np.sum(cm, axis=0) - tp
    tn = np.sum(cm) - tp - fp - fn
    return (tp, fp, fn, tn)

In [15]:

TP, FP, FN, TN = get_tfpn(cm)
(TP, FP, FN, TN)

Out[15]:

(array([7, 8, 9]), array([3, 2, 1]), array([1, 1, 4]), array([19, 19, 16]))

混同行列から Accuracy（全正解率）計算¶

In [16]:

def calc_accuracy(cm):
    # TP, FP, FN, TN = get_tfpn(cm)
    TP = np.diag(cm)
    return np.sum(TP) / np.sum(cm)

In [17]:

calc_accuracy(cm)

Out[17]:

0.80000000000000004

混同行列から AvgAccuracy（平均正解率）計算¶

In [18]:

def calc_avg_accuracy(cm):
    TP, _, _, TN = get_tfpn(cm)
    return np.mean((TP + TN) / np.sum(cm))

In [19]:

calc_avg_accuracy(cm)

Out[19]:

0.8666666666666667

混同行列から PrecisionM（平均適合率）計算¶

In [20]:

def calc_precision_M(cm):
    TP, FP, _, _ = get_tfpn(cm)
    return np.mean(TP / (TP + FP))

In [21]:

calc_precision_M(cm)

Out[21]:

0.79999999999999993

混同行列から RecallM（平均再現率）計算¶

In [22]:

def calc_recall_M(cm):
    TP, _, FN, _ = get_tfpn(cm)
    return np.mean(TP / (TP + FN))

In [23]:

calc_recall_M(cm)

Out[23]:

0.81873219373219364

混同行列から F1-ScoreM（平均F-値）計算¶

In [24]:

def calc_f1score_M(cm):
    p = calc_precision_M(cm)
    r = calc_recall_M(cm)
    return 2 * p * r / (p + r)

In [25]:

calc_f1score_M(cm)

Out[25]:

0.80925771109253308

参考¶

A systematic analysis of performance measures for classification tasks (PDF)

In [ ]:

分類精度の評価について正解率だけが精度じゃない！

自己紹介¶

シチュエーション¶

例えば。¶

選んでみた。¶

表にしてみた。¶

ここで問題¶

評価指標¶

正解率 (Accuracy)¶

表の方で考えてみる。¶

適合率 (Precision)¶

再現率 (Recall)¶

F-値 (F1-Score)¶

ここで問題（再）¶

混同行列¶

混同行列 (Confusion Matrix)¶

真陽性 (True Positive), 偽陽性 (False Positive), 偽陰性 (False Negative), 真陰性 (True Negative)

True Positive¶

False Positive¶

False Negative¶

True Negative¶

混同行列 (Confusion Matrix) 改¶

評価指標の再定義¶

Accuracy¶

Precision¶

Recall¶

F1-Score¶

実装例¶

準備：混同行列¶

混同行列から TP/FP/FN/TN を取得¶

混同行列から Accuracy 計算¶

混同行列から Precision 計算¶

混同行列から Recall 計算¶

混同行列から F1-Score 計算¶

多値分類の評価指標¶

シチュエーションその2¶

分類結果（＝混同行列）¶

TP, FP, FN, TN¶

まず「金メダル」に注目してみる。¶

「金メダルじゃない」をまとめる。¶

「金メダルかどうか」で TP〜TN が計算できる。¶

他のメダルでも同様に。¶

正解率（全正解率）¶

平均正解率¶

平均適合率（マクロ適合率）¶

平均再現率（マクロ再現率）¶

平均F-値（マクロF-値）¶

実装例¶

準備：混同行列¶

混同行列から TP/FP/FN/TN を（リストで）取得¶

混同行列から Accuracy（全正解率）計算¶

混同行列から AvgAccuracy（平均正解率）計算¶

混同行列から PrecisionM（平均適合率） 計算¶

混同行列から RecallM（平均再現率） 計算¶

混同行列から F1-ScoreM（平均F-値） 計算¶

参考¶

分類精度の評価について
正解率だけが精度じゃない！

真陽性 (True Positive), 偽陽性 (False Positive),
偽陰性 (False Negative), 真陰性 (True Negative)

混同行列から PrecisionM（平均適合率）計算¶

混同行列から RecallM（平均再現率）計算¶

混同行列から F1-ScoreM（平均F-値）計算¶