Découper en colonnes
Vous avez déjà bien nettoyé vos données en supprimant les lignes invalides du DataFrame. Vous souhaitez maintenant effectuer d’autres transformations en générant des colonnes pertinentes à partir du contenu du DataFrame.
Vous disposez du contexte spark et de la dernière version du DataFrame annotations_df. pyspark.sql.functions est disponible sous l’alias F.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Scindez le contenu de la colonne
'_c0'sur le caractère de tabulation et stockez le résultat dans une variable appeléesplit_cols. - Ajoutez les colonnes suivantes à partir des quatre premières entrées de la variable ci-dessus : folder, filename, width, height dans un DataFrame nommé
split_df. - Ajoutez la variable
split_colscomme colonne.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Split the content of _c0 on the tab character (aka, '\t')
split_cols = ____(annotations_df['____'], '\t')
# Add the columns folder, filename, width, and height
split_df = annotations_df.withColumn('folder', split_cols.getItem(____))
split_df = split_df.withColumn('filename', ____
split_df = split_df.____
____
# Add split_cols as a column
split_df = split_df.____