Division en colonnes
Vous avez considérablement nettoyé vos données en supprimant les lignes non valides du DataFrame. Vous souhaitez maintenant effectuer d'autres transformations en générant des colonnes significatives spécifiques basées sur le contenu du DataFrame.
Vous disposez du contexte spark
et de la dernière version du DataFrame annotations_df
. pyspark.sql.functions
est disponible sous l'alias F
.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Divisez le contenu de la colonne
'_c0'
sur le caractère de tabulation et stockez-le dans une variable appeléesplit_cols
. - Ajoutez les colonnes suivantes en fonction des quatre premières entrées de la variable ci-dessus : folder, filename, width, height sur un DataFrame nommé
split_df
. - Ajoutez la variable
split_cols
en tant que colonne.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Split the content of _c0 on the tab character (aka, '\t')
split_cols = ____(annotations_df['____'], '\t')
# Add the columns folder, filename, width, and height
split_df = annotations_df.withColumn('folder', split_cols.getItem(____))
split_df = split_df.withColumn('filename', ____
split_df = split_df.____
____
# Add split_cols as a column
split_df = split_df.____