Daten teilen
Nachdem du alle Manipulationen vorgenommen hast, ist der letzte Schritt vor der Modellerstellung die Aufteilung der Daten!
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Verwende die DataFrame-Methode
.randomSplit(), umpiped_datain zwei Teile zu teilen,trainingmit 60 % der Daten undtestmit 40 % der Daten, indem du die Liste[.6, .4]an die Methode.randomSplit()übergibst.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Split the data into training and test sets
training, test = piped_data.randomSplit(____)