LoslegenKostenlos loslegen

Daten teilen

Nachdem du alle Manipulationen vorgenommen hast, ist der letzte Schritt vor der Modellerstellung die Aufteilung der Daten!

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Verwende die DataFrame-Methode .randomSplit(), um piped_data in zwei Teile zu teilen, training mit 60 % der Daten und test mit 40 % der Daten, indem du die Liste [.6, .4] an die Methode .randomSplit() übergibst.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Split the data into training and test sets
training, test = piped_data.randomSplit(____)
Code bearbeiten und ausführen