1. Apprendre
  2. /
  3. Cours
  4. /
  5. Introduction à l'importation de données en Python

Connected

Exercice

Personnaliser votre importation avec pandas

Le module pandas gère très bien bon nombre de problèmes que vous rencontrerez lors de l'importation de données en science des données, comme la présence de commentaires dans les fichiers plats, les lignes vides et les valeurs manquantes (NA ou NaN). Pour conclure ce chapitre, vous allez importer une copie corrompue du jeu de données Titanic, titanic_corrupt.txt, qui contient des commentaires après le caractère '#' et qui est délimité par des tabulations.

Les arguments clés de pd.read_csv() incluent :

  • sep définit le délimiteur attendu.
    • Vous pouvez utiliser ',' pour un format délimité par des virgules.
    • Vous pouvez utiliser '\t' pour un format délimité par des tabulations.
  • comment indique les caractères après lesquels se trouvent les commentaires dans le fichier, ce qui signifie que tout texte commençant par ces caractères doit être ignoré.
  • na_values prend une liste de chaînes à reconnaître comme NA/NaN. Par défaut, certaines valeurs sont déjà reconnues comme NA/NaN. Fournir cet argument ajoute d'autres valeurs à reconnaître.

Instructions

100 XP
  • Complétez les arguments de pd.read_csv() pour importer correctement titanic_corrupt.txt avec pandas :
    • sep définit le délimiteur à utiliser et fonctionne comme l'argument delimiter de np.loadtxt(). Notez que le fichier que vous importez est délimité par des tabulations.
    • comment reçoit les caractères après lesquels se trouvent les commentaires dans le fichier, ici '#'.
    • na_values reçoit une liste de chaînes à traiter comme NA/NaN, dans ce cas la chaîne 'Nothing'.
  • Exécutez le reste du code pour afficher l'en-tête du DataFrame obtenu et tracer l'histogramme de l''Age' des passagers à bord du Titanic.