Pandas
Contents
Pandas#
Documentation officielle : https://pandas.pydata.org/docs/getting_started/overview.html
Pandas (https://pandas.pydata.org/) est une des librairies Python les plus populaires. Cette librairie peut très facilement convertir un dictionnaire en un DataFrame
. C’est l’équivalent d’un tableau avec des noms de colonnes, et des numéros de ligne. Bien sûr, son usage n’est pas limité à convetir un dictionnaire en tableau… Repartons de l’exemple utilisé dans le chapitre sur les dictionnaires.
prenoms = ['Christophe', 'Francois', 'Juliette']
ages = [30, 20, 40]
professions = ['Enseignant', 'Directeur', 'Etudiante']
informations = {'Nom':prenoms,
'Age':ages,
'Profession':professions}
import pandas
df = pandas.DataFrame(informations)
df
Nom | Age | Profession | |
---|---|---|---|
0 | Christophe | 30 | Enseignant |
1 | Francois | 20 | Directeur |
2 | Juliette | 40 | Etudiante |
A partir de ce DataFrame, on peut facilement manipuler les données et extraire des statistiques.
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Nom 3 non-null object
1 Age 3 non-null int64
2 Profession 3 non-null object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes
Il est très facile de calculer des statistiques descriptives sur base du DataFrame.
Par exemple, pour calculer l’âge moyen des personnes du tableau :
df['Age'].mean()
30.0
Lire des fichiers externes#
fichier .txt
fichier .csv
fichier .xlsx
Fichier .xlsx#
Créez un fichier data.xlsx
qui se présente de la façon suivante et stockez le dans le même dossier que votre notebook / script.