Erste SchritteKostenlos loslegen

Daten teilen

Nachdem du alle Manipulationen vorgenommen hast, ist der letzte Schritt vor der Modellerstellung die Aufteilung der Daten!

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Verwende die DataFrame-Methode .randomSplit(), um piped_data in zwei Teile zu teilen, training mit 60 % der Daten und test mit 40 % der Daten, indem du die Liste [.6, .4] an die Methode .randomSplit() übergibst.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Split the data into training and test sets
training, test = piped_data.randomSplit(____)
Bearbeiten und Ausführen von Code