Example-1 (Comparison of three different classifiers)¶

A comparison of a 3 classifiers in scikit-learn on iris dataset. The iris dataset is a classic and very easy multi-class classification dataset.

Install scikit-learn¶

pip install -U scikit-learn

Load dataset¶

In [1]:

from sklearn import datasets
from sklearn.model_selection import train_test_split
from pycm import ConfusionMatrix
iris = datasets.load_iris()
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

Classifier 1 (C-Support vector)¶

In [2]:

from sklearn import svm
classifier_1 = svm.SVC(kernel='linear', C=0.01)

In [3]:

y_pred_1 = classifier_1.fit(X_train, y_train).predict(X_test)

In [4]:

cm1=ConfusionMatrix(y_test,y_pred_1)
cm1.print_matrix()

Predict          0     1     2     
Actual
0                13    0     0     

1                0     10    6     

2                0     0     9

In [5]:

cm1.print_normalized_matrix()

Predict          0        1        2        
Actual
0                1.0      0.0      0.0      

1                0.0      0.625    0.375    

2                0.0      0.0      1.0

In [6]:

cm1.Kappa 

Out[6]:

0.7673469387755101

In [7]:

cm1.Overall_ACC

Out[7]:

0.8421052631578947

In [8]:

cm1.SOA1  # Landis and Koch benchmark

Out[8]:

'Substantial'

In [9]:

cm1.SOA2  # Fleiss’ benchmark

Out[9]:

'Excellent'

In [10]:

cm1.SOA3  # Altman’s benchmark

Out[10]:

'Good'

In [11]:

cm1.SOA4  # Cicchetti’s benchmark

Out[11]:

'Excellent'

In [12]:

cm1.save_html("cm1")

Out[12]:

{'Message': 'D:\\For Asus Laptop\\projects\\pycm\\Document\\cm1.html',
 'Status': True}

HTML File

Classifier 2 (Decision tree)¶

In [13]:

from sklearn.tree import DecisionTreeClassifier
classifier_2 = DecisionTreeClassifier(max_depth=5)

In [14]:

y_pred_2 = classifier_2.fit(X_train, y_train).predict(X_test)

In [15]:

cm2=ConfusionMatrix(y_test,y_pred_2)
cm2.print_matrix()

Predict          0     1     2     
Actual
0                13    0     0     

1                0     15    1     

2                0     0     9

In [16]:

cm2.print_normalized_matrix()

Predict          0         1         2         
Actual
0                1.0       0.0       0.0       

1                0.0       0.9375    0.0625    

2                0.0       0.0       1.0

In [17]:

cm2.Kappa 

Out[17]:

0.95978835978836

In [18]:

cm2.Overall_ACC

Out[18]:

0.9736842105263158

In [19]:

cm2.SOA1  # Landis and Koch benchmark

Out[19]:

'Almost Perfect'

In [20]:

cm2.SOA2  # Fleiss’ benchmark

Out[20]:

'Excellent'

In [21]:

cm2.SOA3  # Altman’s benchmark

Out[21]:

'Very Good'

In [22]:

cm2.SOA4  # Cicchetti’s benchmark

Out[22]:

'Excellent'

In [23]:

cm2.save_html("cm2")

Out[23]:

{'Message': 'D:\\For Asus Laptop\\projects\\pycm\\Document\\cm2.html',
 'Status': True}

HTML File

Classifier 3 (AdaBoost)¶

In [24]:

from sklearn.ensemble import AdaBoostClassifier
classifier_3 = AdaBoostClassifier()

C:\Users\Sepkjaer\AppData\Local\Programs\Python\Python35-32\lib\site-packages\scikit_learn-0.19.1-py3.5-win32.egg\sklearn\ensemble\weight_boosting.py:29: DeprecationWarning: numpy.core.umath_tests is an internal NumPy module and should not be imported. It will be removed in a future NumPy release.
  from numpy.core.umath_tests import inner1d

In [25]:

y_pred_3 = classifier_3.fit(X_train, y_train).predict(X_test)

In [26]:

cm3=ConfusionMatrix(y_test,y_pred_3)
cm3.print_matrix()

Predict          0     1     2     
Actual
0                13    0     0     

1                0     15    1     

2                0     3     6

In [27]:

cm3.print_normalized_matrix()

Predict          0          1          2          
Actual
0                1.0        0.0        0.0        

1                0.0        0.9375     0.0625     

2                0.0        0.33333    0.66667

In [28]:

cm3.Kappa 

Out[28]:

0.8354978354978355

In [29]:

cm3.Overall_ACC

Out[29]:

0.8947368421052632

In [30]:

cm3.SOA1  # Landis and Koch benchmark

Out[30]:

'Almost Perfect'

In [31]:

cm3.SOA2  # Fleiss’ benchmark

Out[31]:

'Excellent'

In [32]:

cm3.SOA3  # Altman’s benchmark

Out[32]:

'Very Good'

In [33]:

cm3.SOA4  # Cicchetti’s benchmark

Out[33]:

'Excellent'

In [34]:

cm3.save_html("cm3")

Out[34]:

{'Message': 'D:\\For Asus Laptop\\projects\\pycm\\Document\\cm3.html',
 'Status': True}

HTML File

How to compare classifiers?¶

Classifiers can be compared with each other according to results of the benchmarks. The second classifier (DecisionTree) is the best one in this case. PYCM supports different useful parameters such as Kappa value, Scott's pi, Entropy, to name but a handful.