In [ ]:

import numpy as np
import pandas as pd

In [ ]:

np.set_printoptions(precision=2)

Считываем данные из файла

In [ ]:

data = pd.read_csv("../../data/beauty.csv", sep=";")

In [ ]:

type(data)

Смотрим на первые 5 строк

In [ ]:

data.head()

In [ ]:

data.shape

Краткая статистика – info и describe

In [ ]:

data.info()

In [ ]:

data.describe()

Индексация

In [ ]:

data["exper"].head()

loc и iloc

In [ ]:

data.loc[0:5, ["wage", "female"]]

In [ ]:

data.iloc[:, 2:4].head()

Логическая индексация

In [ ]:

data[data["female"] == 1]["wage"].mean(), data[data["female"] == 0]["wage"].mean()

In [ ]:

data[(data["female"] == 0) & (data["married"] == 1)]["wage"].median(), data[
    (data["female"] == 0) & (data["married"] == 0)
]["wage"].median()

Groupby

In [ ]:

for look, sub_df in data.groupby("looks"):
    print(look)

    # что угодно
    print(sub_df["goodhlth"].mean())

In [ ]:

data.groupby("looks")[["wage", "exper"]].agg(np.median)

Сводная таблица

In [ ]:

pd.crosstab(data["female"], data["married"])

In [ ]:

pd.crosstab(data["female"], data["looks"])

Добавление столбцов (построение признаков)

In [ ]:

data["is_rich"] = (data["wage"] > data["wage"].quantile(0.75)).astype("int64")

In [ ]:

data.head()

In [ ]:

data["rubbish"] = 0.56 * data["wage"] + 0.32 * data["exper"]

map и apply

In [ ]:

def string_gender(female):
    return "female" if female else "male"

In [ ]:

d = {1: "union", 0: "non-union"}

In [ ]:

data["union"].map(d).head()

In [ ]:

data["female"].apply(lambda female: "female" if female else "male").head()