Daten teilen
Nachdem du alle Manipulationen vorgenommen hast, ist der letzte Schritt vor der Modellerstellung die Aufteilung der Daten!
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Verwende die DataFrame-Methode
.randomSplit()
, umpiped_data
in zwei Teile zu teilen,training
mit 60 % der Daten undtest
mit 40 % der Daten, indem du die Liste[.6, .4]
an die Methode.randomSplit()
übergibst.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Split the data into training and test sets
training, test = piped_data.randomSplit(____)