In [1]:
from datetime import datetime
print(f'Päivitetty {datetime.now()}')
Päivitetty 2021-10-22 13:12:51.757015

Excel-datan avaaminen

  • Pandas kirjaston read_excel avaa Excel-muotoisen datan.

  • Pelkällä tiedostonimellä avaat koodin kanssa samaan kansioon tallennetun Excel-datan.

  • Jos tiedosto on muussa kansiossa tai netissä, niin lisää tiedostopolku tai nettiosoite, esimerkiksi 'C:/Users/Aki/Documents/data1.xlsx'

  • Datan alkuosaa voit avaamisen jälkeen katsoa komennolla df.head() ja loppuosaa komennolla df.tail().

  • Jos data ei ala ensimmäisen taulukkovälilehden ensimmäisestä solusta (huomaat tämän df.head()-komennolla), niin tarvitset parametreja sheet_name, usecols, skiprows. Esimerkiksi seuraava avaisi datan Sheet2-taulukkovälilehden sarakkeista B ja C hypäten ensimmäisen rivin yli:

df = pd.read_excel('data1.xlsx', sheet_name = 'Sheet2', usecols = 'B, C', skiprows = 1)

  • Hankalammissa tapauksissa kannattaa harkita datan siivoamista Excelissä ennen read_excel-komennon käyttämistä.
In [2]:
import pandas as pd
In [3]:
df = pd.read_excel('https://taanila.fi/data1.xlsx')
df.head()
Out[3]:
nro sukup ikä perhe koulutus palveluv palkka johto työtov työymp palkkat työteht työterv lomaosa kuntosa hieroja
0 1 1 38 1 1.0 22.0 3587 3 3.0 3 3 3 NaN NaN NaN NaN
1 2 1 29 2 2.0 10.0 2963 1 5.0 2 1 3 NaN NaN NaN NaN
2 3 1 30 1 1.0 7.0 1989 3 4.0 1 1 3 1.0 NaN NaN NaN
3 4 1 36 2 1.0 14.0 2144 3 3.0 3 3 3 1.0 NaN NaN NaN
4 5 1 24 1 2.0 4.0 2183 2 3.0 2 1 2 1.0 NaN NaN NaN
In [4]:
df.tail()
Out[4]:
nro sukup ikä perhe koulutus palveluv palkka johto työtov työymp palkkat työteht työterv lomaosa kuntosa hieroja
77 78 1 22 1 3.0 0.0 1598 4 4.0 4 3 4 NaN 1.0 1.0 NaN
78 79 1 33 1 1.0 2.0 1638 1 3.0 2 1 2 1.0 NaN NaN NaN
79 80 1 27 1 2.0 7.0 2612 3 4.0 3 3 3 1.0 NaN 1.0 NaN
80 81 1 35 2 2.0 16.0 2808 3 4.0 3 3 3 NaN NaN NaN NaN
81 82 2 35 2 3.0 15.0 2183 3 4.0 4 3 4 1.0 NaN NaN NaN