In Spalten aufteilen
Du hast deine Daten deutlich bereinigt, indem du die ungültigen Zeilen aus dem DataFrame entfernt hast. Jetzt möchtest du weitere Transformationen vornehmen, indem du aussagekräftige Spalten basierend auf dem DataFrame-Inhalt erzeugst.
Du hast den spark-Kontext und die aktuelle Version des DataFrames annotations_df. pyspark.sql.functions ist unter dem Alias F verfügbar.
Diese Übung ist Teil des Kurses
Datenbereinigung mit PySpark
Anleitung zur Übung
- Teile den Inhalt der Spalte
'_c0'am Tabulatorzeichen auf und speichere das Ergebnis in einer Variablen namenssplit_cols. - Füge auf einem DataFrame namens
split_dfdie folgenden Spalten basierend auf den ersten vier Einträgen der obigen Variablen hinzu: folder, filename, width, height. - Füge die Variable
split_colsals Spalte hinzu.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Split the content of _c0 on the tab character (aka, '\t')
split_cols = ____(annotations_df['____'], '\t')
# Add the columns folder, filename, width, and height
split_df = annotations_df.withColumn('folder', split_cols.getItem(____))
split_df = split_df.withColumn('filename', ____
split_df = split_df.____
____
# Add split_cols as a column
split_df = split_df.____