CommencerCommencer gratuitement

Découper en colonnes

Vous avez déjà bien nettoyé vos données en supprimant les lignes invalides du DataFrame. Vous souhaitez maintenant effectuer d’autres transformations en générant des colonnes pertinentes à partir du contenu du DataFrame.

Vous disposez du contexte spark et de la dernière version du DataFrame annotations_df. pyspark.sql.functions est disponible sous l’alias F.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

  • Scindez le contenu de la colonne '_c0' sur le caractère de tabulation et stockez le résultat dans une variable appelée split_cols.
  • Ajoutez les colonnes suivantes à partir des quatre premières entrées de la variable ci-dessus : folder, filename, width, height dans un DataFrame nommé split_df.
  • Ajoutez la variable split_cols comme colonne.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Split the content of _c0 on the tab character (aka, '\t')
split_cols = ____(annotations_df['____'], '\t')

# Add the columns folder, filename, width, and height
split_df = annotations_df.withColumn('folder', split_cols.getItem(____))
split_df = split_df.withColumn('filename', ____
split_df = split_df.____
____

# Add split_cols as a column
split_df = split_df.____
Modifier et exécuter le code