Daten teilen
Nachdem du alle Manipulationen vorgenommen hast, ist der letzte Schritt vor der Modellerstellung die Aufteilung der Daten!
Diese Übung ist Teil des Kurses
<Kurs>Einführung in PySpark</Kurs>Übungsanweisungen
- Verwende die DataFrame-Methode
.randomSplit(), umpiped_datain zwei Teile zu teilen,trainingmit 60 % der Daten undtestmit 40 % der Daten, indem du die Liste[.6, .4]an die Methode.randomSplit()übergibst.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Split the data into training and test sets
training, test = piped_data.randomSplit(____)