CommencerCommencer gratuitement

Division en colonnes

Vous avez considérablement nettoyé vos données en supprimant les lignes non valides du DataFrame. Vous souhaitez maintenant effectuer d'autres transformations en générant des colonnes significatives spécifiques basées sur le contenu du DataFrame.

Vous disposez du contexte spark et de la dernière version du DataFrame annotations_df. pyspark.sql.functions est disponible sous l'alias F.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

  • Divisez le contenu de la colonne '_c0' sur le caractère de tabulation et stockez-le dans une variable appelée split_cols.
  • Ajoutez les colonnes suivantes en fonction des quatre premières entrées de la variable ci-dessus : folder, filename, width, height sur un DataFrame nommé split_df.
  • Ajoutez la variable split_cols en tant que colonne.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Split the content of _c0 on the tab character (aka, '\t')
split_cols = ____(annotations_df['____'], '\t')

# Add the columns folder, filename, width, and height
split_df = annotations_df.withColumn('folder', split_cols.getItem(____))
split_df = split_df.withColumn('filename', ____
split_df = split_df.____
____

# Add split_cols as a column
split_df = split_df.____
Modifier et exécuter le code