Pandas
Contents
Pandas#
Documentation officielle : https://pandas.pydata.org/docs/getting_started/overview.html
Pandas (https://pandas.pydata.org/) est une des librairies Python les plus populaires. Cette librairie peut très facilement convertir un dictionnaire en un DataFrame. C’est l’équivalent d’un tableau avec des noms de colonnes, et des numéros de ligne. Bien sûr, son usage n’est pas limité à convetir un dictionnaire en tableau… Repartons de l’exemple utilisé dans le chapitre sur les dictionnaires.
prenoms = ['Christophe', 'Francois', 'Juliette']
ages = [30, 20, 40]
professions = ['Enseignant', 'Directeur', 'Etudiante']
informations = {'Nom':prenoms,
'Age':ages,
'Profession':professions}
import pandas
df = pandas.DataFrame(informations)
df
| Nom | Age | Profession | |
|---|---|---|---|
| 0 | Christophe | 30 | Enseignant |
| 1 | Francois | 20 | Directeur |
| 2 | Juliette | 40 | Etudiante |
A partir de ce DataFrame, on peut facilement manipuler les données et extraire des statistiques.
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Nom 3 non-null object
1 Age 3 non-null int64
2 Profession 3 non-null object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes
Il est très facile de calculer des statistiques descriptives sur base du DataFrame.
Par exemple, pour calculer l’âge moyen des personnes du tableau :
df['Age'].mean()
30.0
Lire des fichiers externes#
fichier .txt
fichier .csv
fichier .xlsx
Fichier .xlsx#
Créez un fichier data.xlsx qui se présente de la façon suivante et stockez le dans le même dossier que votre notebook / script.