Splitsen in kolommen

Je hebt je gegevens al flink opgeschoond door de ongeldige rijen uit de DataFrame te verwijderen. Nu wil je nog een paar transformaties uitvoeren door specifieke, betekenisvolle kolommen te genereren op basis van de inhoud van de DataFrame.

Je hebt de spark-context en de nieuwste versie van de DataFrame annotations_df. pyspark.sql.functions is beschikbaar onder de alias F.

Deze oefening maakt deel uit van de cursus

Data opschonen met PySpark

Bekijk cursus

Oefeninstructies

Split de inhoud van de kolom '_c0' op het tabteken en sla dit op in een variabele split_cols.
Voeg de volgende kolommen toe op basis van de eerste vier elementen in de bovenstaande variabele: folder, filename, width, height aan een DataFrame met de naam split_df.
Voeg de variabele split_cols toe als kolom.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Split the content of _c0 on the tab character (aka, '\t')
split_cols = ____(annotations_df['____'], '\t')

# Add the columns folder, filename, width, and height
split_df = annotations_df.withColumn('folder', split_cols.getItem(____))
split_df = split_df.withColumn('filename', ____
split_df = split_df.____
____

# Add split_cols as a column
split_df = split_df.____

Code bewerken en uitvoeren