Notebook

In [1]:

# ALL REQUIRED IMPORTS
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from google.colab import drive
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, r2_score, f1_score, accuracy_score, classification_report, roc_auc_score, log_loss
from sklearn.metrics import *
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import StratifiedKFold, GridSearchCV, KFold, cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.linear_model import *
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.svm import SVC
from sklearn.ensemble import *
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeRegressor, DecisionTreeClassifier
from sklearn.decomposition import PCA
drive.mount('/content/gdrive')

Mounted at /content/gdrive

In [10]:

train_path = '/content/gdrive/MyDrive/Datasets/santander-customer-satisfaction/train.csv'
test_path = '/content/gdrive/MyDrive/Datasets/santander-customer-satisfaction/test.csv'
santa_test = pd.read_csv(test_path)
santa = pd.read_csv(train_path)
santa.columns

Out[10]:

Index(['ID', 'var3', 'var15', 'imp_ent_var16_ult1', 'imp_op_var39_comer_ult1',
       'imp_op_var39_comer_ult3', 'imp_op_var40_comer_ult1',
       'imp_op_var40_comer_ult3', 'imp_op_var40_efect_ult1',
       'imp_op_var40_efect_ult3',
       ...
       'saldo_medio_var33_hace2', 'saldo_medio_var33_hace3',
       'saldo_medio_var33_ult1', 'saldo_medio_var33_ult3',
       'saldo_medio_var44_hace2', 'saldo_medio_var44_hace3',
       'saldo_medio_var44_ult1', 'saldo_medio_var44_ult3', 'var38', 'TARGET'],
      dtype='object', length=371)

In [17]:

X_train = santa.drop(['TARGET', 'ID'], axis=1)
y_train = santa['TARGET']
X_test = santa_test.drop('ID', axis = 1)

In [18]:

rf = RandomForestClassifier(random_state = 2022)
rf.fit(X_train, y_train)

Out[18]:

RandomForestClassifier(random_state=2022)

In [19]:

y_pred_prob = rf.predict_proba(X_test)[:,1]

In [20]:

submit_path = '/content/gdrive/MyDrive/Datasets/santander-customer-satisfaction/sample_submission.csv'
submit = pd.read_csv(submit_path)
submit['TARGET'] = y_pred_prob
submit.to_csv(submit_path, index=False)