Splitsen in kolommen
Je hebt je gegevens al flink opgeschoond door de ongeldige rijen uit de DataFrame te verwijderen. Nu wil je nog een paar transformaties uitvoeren door specifieke, betekenisvolle kolommen te genereren op basis van de inhoud van de DataFrame.
Je hebt de spark-context en de nieuwste versie van de DataFrame annotations_df. pyspark.sql.functions is beschikbaar onder de alias F.
Deze oefening maakt deel uit van de cursus
Data opschonen met PySpark
Oefeninstructies
- Split de inhoud van de kolom
'_c0'op het tabteken en sla dit op in een variabelesplit_cols. - Voeg de volgende kolommen toe op basis van de eerste vier elementen in de bovenstaande variabele: folder, filename, width, height aan een DataFrame met de naam
split_df. - Voeg de variabele
split_colstoe als kolom.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Split the content of _c0 on the tab character (aka, '\t')
split_cols = ____(annotations_df['____'], '\t')
# Add the columns folder, filename, width, and height
split_df = annotations_df.withColumn('folder', split_cols.getItem(____))
split_df = split_df.withColumn('filename', ____
split_df = split_df.____
____
# Add split_cols as a column
split_df = split_df.____