In [ ]:
!pip install matplotlib
%matplotlib inline
!pip install pandas

Création d'un jeu de donnée simple (dataframe)

In [2]:
import pandas as pd

pd.DataFrame({'Colonne 1': [1], 'Colonne 2': [2]})
Out[2]:
Colonne 1 Colonne 2
0 1 2

Modification des libellés

In [3]:
pd.DataFrame({'Colonne 1': [35, 41], 'Colonne 2': [1, 2]}, index=['Ligne 1', 'Ligne 2'])
Out[3]:
Colonne 1 Colonne 2
Ligne 1 35 1
Ligne 2 41 2

Création d'une série

In [4]:
pd.Series(["Valeur1", "Valeur2", "Valeur3", "Valeur4"], index=["Index1", "Index2", "Index3", "Index4"], name='Ma série')
Out[4]:
Index1    Valeur1
Index2    Valeur2
Index3    Valeur3
Index4    Valeur4
Name: Ma série, dtype: object

Lecture d'un fichier CSV

Première lignes

In [7]:
csv = pd.read_csv('titanic.csv',sep=';')
csv.head()
Out[7]:
classe survie nom sexe age tarif
0 1 1 Allen, Miss. Elisabeth Walton 2 29.0 211.0
1 1 1 Allison, Master. Hudson Trevor 1 1.0 152.0
2 1 0 Allison, Miss. Helen Loraine 2 2.0 152.0
3 1 0 Allison, Mr. Hudson Joshua Creighton 1 30.0 152.0
4 1 0 Allison, Mrs. Hudson Bessie Waldo Daniels 2 25.0 152.0

métadonnées

In [8]:
csv.describe()
Out[8]:
classe survie sexe age tarif
count 1309.000000 1309.000000 1309.000000 1046.000000 1308.000000
mean 2.294882 0.381971 1.355997 29.897706 33.363150
std 0.837836 0.486055 0.478997 14.414973 51.751529
min 1.000000 0.000000 1.000000 0.000000 0.000000
25% 2.000000 0.000000 1.000000 21.000000 8.000000
50% 3.000000 0.000000 1.000000 28.000000 14.000000
75% 3.000000 1.000000 2.000000 39.000000 31.000000
max 3.000000 1.000000 2.000000 80.000000 512.000000

Dernières lignes

In [9]:
csv.tail()
Out[9]:
classe survie nom sexe age tarif
1304 3 0 Zabour, Miss. Hileni 2 15.0 14.0
1305 3 0 Zabour, Miss. Thamine 2 NaN 14.0
1306 3 0 Zakarian, Mr. Mapriededer 1 27.0 7.0
1307 3 0 Zakarian, Mr. Ortin 1 27.0 7.0
1308 3 0 Zimmerman, Mr. Leo 1 29.0 8.0

dimensions du dataframe

In [11]:
csv.shape
Out[11]:
(1309, 6)

Affichage du fichier csv

In [12]:
pd.set_option("display.max_rows", 5)
csv
Out[12]:
classe survie nom sexe age tarif
0 1 1 Allen, Miss. Elisabeth Walton 2 29.0 211.0
1 1 1 Allison, Master. Hudson Trevor 1 1.0 152.0
... ... ... ... ... ... ...
1307 3 0 Zakarian, Mr. Ortin 1 27.0 7.0
1308 3 0 Zimmerman, Mr. Leo 1 29.0 8.0

1309 rows × 6 columns

Accès aux données (index)

Accès à un vecteur (colonne)

In [13]:
csv.nom
Out[13]:
0        Allen, Miss. Elisabeth Walton
1       Allison, Master. Hudson Trevor
                     ...              
1307               Zakarian, Mr. Ortin
1308                Zimmerman, Mr. Leo
Name: nom, Length: 1309, dtype: object
In [14]:
csv["nom"]
Out[14]:
0        Allen, Miss. Elisabeth Walton
1       Allison, Master. Hudson Trevor
                     ...              
1307               Zakarian, Mr. Ortin
1308                Zimmerman, Mr. Leo
Name: nom, Length: 1309, dtype: object

Accès à une cellule

In [15]:
csv.nom[0]
Out[15]:
'Allen, Miss. Elisabeth Walton'
In [16]:
csv["nom"][0]
Out[16]:
'Allen, Miss. Elisabeth Walton'

Récupération des 4 premières colonnes & 3 premières lignes

In [17]:
csv.iloc[:3, :4]
Out[17]:
classe survie nom sexe
0 1 1 Allen, Miss. Elisabeth Walton 2
1 1 1 Allison, Master. Hudson Trevor 1
2 1 0 Allison, Miss. Helen Loraine 2

Filtrage sur colonnes (via labels)

In [19]:
csv.loc[:, ('nom', 'sexe')]
Out[19]:
nom sexe
0 Allen, Miss. Elisabeth Walton 2
1 Allison, Master. Hudson Trevor 1
... ... ...
1307 Zakarian, Mr. Ortin 1
1308 Zimmerman, Mr. Leo 1

1309 rows × 2 columns

In [ ]: