LoslegenKostenlos loslegen

In Spalten aufteilen

Du hast deine Daten deutlich bereinigt, indem du die ungültigen Zeilen aus dem DataFrame entfernt hast. Jetzt möchtest du weitere Transformationen vornehmen, indem du aussagekräftige Spalten basierend auf dem DataFrame-Inhalt erzeugst.

Du hast den spark-Kontext und die aktuelle Version des DataFrames annotations_df. pyspark.sql.functions ist unter dem Alias F verfügbar.

Diese Übung ist Teil des Kurses

Datenbereinigung mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Teile den Inhalt der Spalte '_c0' am Tabulatorzeichen auf und speichere das Ergebnis in einer Variablen namens split_cols.
  • Füge auf einem DataFrame namens split_df die folgenden Spalten basierend auf den ersten vier Einträgen der obigen Variablen hinzu: folder, filename, width, height.
  • Füge die Variable split_cols als Spalte hinzu.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Split the content of _c0 on the tab character (aka, '\t')
split_cols = ____(annotations_df['____'], '\t')

# Add the columns folder, filename, width, and height
split_df = annotations_df.withColumn('folder', split_cols.getItem(____))
split_df = split_df.withColumn('filename', ____
split_df = split_df.____
____

# Add split_cols as a column
split_df = split_df.____
Code bearbeiten und ausführen