Задача 17¶

Идентификация видов стекла. Часто на месте преступления остаются осколки разных видов стекол, которые можно использовать как улики, если определить тип стекла и от каких оно объектов. Выборка состоит из 9 признаков - химических параметров образцов и 214 объектов. Необходимо каждому образцу сопоставить один из 6 классов (например: стекло автомобиля, осколок посуды, окно здания) и сравнить качество работы решающего дерева и алгоритма решающего дерева и алгоритма k-ближайших соседей. В качестве функции ошибки использовать долю неправильных ответов классификатора. Дает ли масштабирование признаков значительное улучшение в качестве классификации?

In [9]:

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [10]:

glass = pd.read_csv('glass.data.csv')
glass_data =  glass.drop(['Id','Type'], axis='columns')

In [11]:

glass_data.head(5)

Out[11]:

	RI	Na	Mg	Al	Si	K	Ca
0	1.52101	13.64	4.49	1.10	71.78	0.06	8.75
1	1.51761	13.89	3.60	1.36	72.73	0.48	7.83
2	1.51618	13.53	3.55	1.54	72.99	0.39	7.78
3	1.51766	13.21	3.69	1.29	72.61	0.57	8.22
4	1.51742	13.27	3.62	1.24	73.08	0.55	8.07

Кросс-валидация¶

In [12]:

from sklearn import cross_validation, metrics
train_data, test_data, train_labels, test_labels = cross_validation.train_test_split(glass_data, glass['Type'], test_size = 0.3, random_state = 1)

Решающее дерево¶

In [13]:

from sklearn.tree import DecisionTreeClassifier
clf_tree = DecisionTreeClassifier()
clf_tree.fit(train_data, train_labels)

Out[13]:

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_split=1e-07, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            presort=False, random_state=None, splitter='best')

In [14]:

predict_DecisionTree = clf_tree.predict(test_data)
accuracy_DecisionTree = metrics.accuracy_score(predict_DecisionTree, test_labels)
print accuracy_DecisionTree

0.723076923077

K-ближайших соседей¶

In [15]:

from sklearn.neighbors import KNeighborsClassifier
neigh = KNeighborsClassifier()
neigh.fit(train_data, train_labels)

Out[15]:

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')

In [16]:

predict_KNeighbors = neigh.predict(test_data)
accuracy_KNeighbors = metrics.accuracy_score(predict_KNeighbors, test_labels)
print accuracy_KNeighbors

0.738461538462

In [ ]: