CommencerCommencer gratuitement

Charger plusieurs fichiers de données

Il est tout à fait possible d’importer plusieurs jeux de données manuellement. Cependant, il y aura des situations où vous souhaiterez importer un grand nombre de jeux de données sans devoir appeler read_csv() à répétition. Vous pouvez utiliser la bibliothèque glob intégrée à Python pour rechercher des fichiers correspondant à un motif. La bibliothèque s’appelle « glob » car le « globbing » est la méthode utilisée pour spécifier des motifs dans le shell Bash.

La fonction glob() renvoie une liste de noms de fichiers correspondant à un motif donné. Vous pouvez ensuite utiliser une compréhension de liste pour importer plusieurs fichiers dans une liste, puis extraire le DataFrame qui vous intéresse.

Cet exercice fait partie du cours

Python pour les utilisateurs de R

Afficher le cours

Instructions

  • Obtenez la liste de tous les fichiers csv dans votre répertoire courant et assignez-la à csv_files.
  • Écrivez une compréhension de liste qui lit tous les fichiers csv dans une liste, dfs.
  • Écrivez une compréhension de liste qui examine la propriété .shape de chaque DataFrame de la liste.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

import glob
import pandas as pd

# Get a list of all the csv files
csv_files = glob.____('*.csv')

# List comprehension that loads of all the files
dfs = [pd.read_csv(____) for ____ in ____]

# List comprehension that looks at the shape of all DataFrames
print(____)
Modifier et exécuter le code