Notebook

## Открытый курс по машинному обучению. Сессия № 2 Автор материала: программист-исследователь Mail.ru Group, старший преподаватель Факультета Компьютерных Наук ВШЭ Юрий Кашницкий. Материал распространяется на условиях лицензии [Creative Commons CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/). Можно использовать в любых целях (редактировать, поправлять и брать за основу), кроме коммерческих, но с обязательным упоминанием автора материала.

Тема 10. Бустинг

Часть 8. Оценка результатов Xgboost

Загрузка бибилиотек¶

In [ ]:

import numpy as np
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

Загрузка и подготовка данных¶

Посмотрим на примере данных по оттоку клиентов из телеком-компании.

In [ ]:

df = pd.read_csv("../../data/telecom_churn.csv")

In [ ]:

df.head()

Штаты просто занумеруем, а признаки International plan (наличие международного роуминга), Voice mail plan (наличие голосовой почтыы) и целевой Churn сделаем бинарными.

In [ ]:

state_enc = LabelEncoder()
df["State"] = state_enc.fit_transform(df["State"])
df["International plan"] = (df["International plan"] == "Yes").astype("int")
df["Voice mail plan"] = (df["Voice mail plan"] == "Yes").astype("int")
df["Churn"] = (df["Churn"]).astype("int")

Разделим данные на обучающую и тестовую выборки в отношении 7:3. Создадим соотв. объекты DMAtrix.

In [ ]:

X_train, X_test, y_train, y_test = train_test_split(
    df.drop("Churn", axis=1), df["Churn"], test_size=0.3, random_state=42
)
dtrain = xgb.DMatrix(X_train, y_train)
dtest = xgb.DMatrix(X_test, y_test)

Зададим параметры Xgboost.

In [ ]:

params = {"objective": "binary:logistic", "max_depth": 3, "silent": 1, "eta": 0.5}

num_rounds = 10

Будем отслеживать качество модели и на обучающей выборке, и на валидационной.

In [ ]:

watchlist = [(dtest, "test"), (dtrain, "train")]

Использование встроенных метрик¶

В Xgboost реализованы большинство популярных метрик для классификации, регрессии и ранжирования:

rmse - root mean square error
mae - mean absolute error
logloss - negative log-likelihood
error (по умолчанию) - доля ошибок в бинарной классификации
merror - доля ошибок в классификации на несколько классов
auc - area under curve
ndcg - normalized discounted cumulative gain
map - mean average precision

In [ ]:

xgb_model = xgb.train(params, dtrain, num_rounds, watchlist)

Чтоб отслеживать log_loss, просто добавим ее в словарь params.

In [ ]:

params["eval_metric"] = "logloss"
xgb_model = xgb.train(params, dtrain, num_rounds, watchlist)

Можно отслеживать сразу несколько метрик.

In [ ]:

params["eval_metric"] = ["logloss", "auc"]
xgb_model = xgb.train(params, dtrain, num_rounds, watchlist)

Создание собственной метрики качества¶

Чтобы создать свою метрику качества, достаточно определить функцию, принимающую 2 аргумента: вектор предсказанных вероятностей и объект DMatrix с истинными метками.
В этом примере функция вернет просто число объектов, на которых классификатор ошибся, когла относил к классу 1 при превышении предсказанной вероятности класса 1 порога 0.5. Далее передаем эту функцию в xgb.train (параметр feval), если метрика тем лучше, чем меньше, надо дополнительно указать maximize=False.

In [ ]:

# custom evaluation metric
def misclassified(pred_probs, dmatrix):
    labels = dmatrix.get_label()  # obtain true labels
    preds = pred_probs > 0.5  # obtain predicted values
    return "misclassified", np.sum(labels != preds)

In [ ]:

xgb_model = xgb.train(
    params, dtrain, num_rounds, watchlist, feval=misclassified, maximize=False
)

С помощью параметра evals_result можно сохранить значения метрик по итерациям.

In [ ]:

evals_result = {}
xgb_model = xgb.train(
    params,
    dtrain,
    num_rounds,
    watchlist,
    feval=misclassified,
    maximize=False,
    evals_result=evals_result,
)

In [ ]:

evals_result

Ранняя остановка¶

Ранняя остановка используется для того, чтобы прекратить обучение модели, если ошибка за несколько итераций не уменьшилась.

In [ ]:

params["eval_metric"] = "error"
num_rounds = 1500

xgb_model = xgb.train(params, dtrain, num_rounds, watchlist, early_stopping_rounds=10)

In [ ]:

print("Booster best train score: {}".format(xgb_model.best_score))
print("Booster best iteration: {}".format(xgb_model.best_iteration))

Кросс-валидация с Xgboost¶

Продемонстрируем функцию xgboost.cv.

In [ ]:

num_rounds = 10
hist = xgb.cv(params, dtrain, num_rounds, nfold=10, metrics={"error"}, seed=42)
hist

Замечания:

по умолчанию на выходе DataFrame (можно поменять параметр as_pandas),
метрики передатся как параметр (можно и несколько),
можно использовать и свои метрики (параметры feval и maximize),
можно также использовать раннюю остановку ( early_stopping_rounds)