Charger plusieurs fichiers de données
Il est tout à fait possible d’importer plusieurs jeux de données manuellement. Cependant, il y aura des situations où vous souhaiterez importer un grand nombre de jeux de données sans devoir appeler read_csv() à répétition.
Vous pouvez utiliser la bibliothèque glob intégrée à Python pour rechercher des fichiers correspondant à un motif.
La bibliothèque s’appelle « glob » car le « globbing » est la méthode utilisée pour spécifier des motifs dans le shell Bash.
La fonction glob() renvoie une liste de noms de fichiers correspondant à un motif donné.
Vous pouvez ensuite utiliser une compréhension de liste pour importer plusieurs fichiers dans une liste, puis extraire le DataFrame qui vous intéresse.
Cet exercice fait partie du cours
Python pour les utilisateurs de R
Instructions
- Obtenez la liste de tous les fichiers csv dans votre répertoire courant et assignez-la à
csv_files. - Écrivez une compréhension de liste qui lit tous les fichiers
csvdans une liste,dfs. - Écrivez une compréhension de liste qui examine la propriété
.shapede chaque DataFrame de la liste.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
import glob
import pandas as pd
# Get a list of all the csv files
csv_files = glob.____('*.csv')
# List comprehension that loads of all the files
dfs = [pd.read_csv(____) for ____ in ____]
# List comprehension that looks at the shape of all DataFrames
print(____)