Aufteilung in Spalten

Du hast deine Daten erheblich bereinigt, indem du die ungültigen Zeilen aus dem DataFrame entfernt hast. Jetzt möchtest du weitere Transformationen durchführen, indem du bestimmte aussagekräftige Spalten auf der Grundlage des DataFrame-Inhalts erzeugst.

Du hast den Kontext spark und die neueste Version des DataFrame annotations_df. pyspark.sql.functions ist unter dem Alias F verfügbar.

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Anleitung zur Übung

Teile den Inhalt der Spalte '_c0' am Tabulatorzeichen und speichere ihn in einer Variablen namens split_cols.
Füge die folgenden Spalten basierend auf den ersten vier Einträgen in der obigen Variable hinzu: Ordner, Dateiname, Breite, Höhe in einem DataFrame namens split_df.
Füge die Variable split_cols als Spalte hinzu.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Split the content of _c0 on the tab character (aka, '\t')
split_cols = ____(annotations_df['____'], '\t')

# Add the columns folder, filename, width, and height
split_df = annotations_df.withColumn('folder', split_cols.getItem(____))
split_df = split_df.withColumn('filename', ____
split_df = split_df.____
____

# Add split_cols as a column
split_df = split_df.____

Code bearbeiten und ausführen