Datentypen
Gute Arbeit! Bevor du mit der Modellerstellung beginnst, ist es wichtig zu wissen, dass Spark nur numerische Daten verarbeitet. Das bedeutet, dass alle Spalten in deinem DataFrame entweder Ganzzahlen oder Dezimalzahlen (in Spark „double“ genannt) sein müssen.
Als wir unsere Daten importiert haben, haben wir Spark raten lassen, welche Art von Information jede Spalte enthält. Leider rät Spark nicht immer richtig und man kann sehen, dass einige Spalten in unserem DataFrame Strings sind, die Zahlen und keine echten numerischen Werte enthalten.
Um dem abzuhelfen, kannst du die Methode .cast()
in Kombination mit der Methode .withColumn()
verwenden.
Es ist wichtig zu wissen, dass .cast()
für Spalten genutzt werden kann, während .withColumn()
für DataFrames gedacht ist.
Das einzige Argument, das du an .cast()
übergeben musst, ist die Art des Wertes, den du in Form eines Strings erstellen willst. Um zum Beispiel ganze Zahlen zu erstellen, übergibst du das Argument "integer"
und für Dezimalzahlen verwendest du "double"
.
Du kannst diesen Aufruf an .cast()
innerhalb eines Aufrufs an .withColumn()
einfügen, um die bereits vorhandene Spalte zu überschreiben, so wie du es im vorherigen Kapitel getan hast!
Welche Art von Daten benötigt Spark für die Modellerstellung?
Diese Übung ist Teil des Kurses
Einführung in PySpark
Interaktive Übung
Setze die Theorie in einer unserer interaktiven Übungen in die Praxis um
