Daten teilen
Nachdem du alle Manipulationen vorgenommen hast, ist der letzte Schritt vor der Modellerstellung die Aufteilung der Daten!
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Verwende die DataFrame-Methode
.randomSplit()
, umpiped_data
in zwei Teile zu teilen,training
mit 60 % der Daten undtest
mit 40 % der Daten, indem du die Liste[.6, .4]
an die Methode.randomSplit()
übergibst.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Split the data into training and test sets
training, test = piped_data.randomSplit(____)