LoslegenKostenlos loslegen

Daten teilen

Nachdem du alle Manipulationen vorgenommen hast, ist der letzte Schritt vor der Modellerstellung die Aufteilung der Daten!

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Verwende die DataFrame-Methode .randomSplit(), um piped_data in zwei Teile zu teilen, training mit 60 % der Daten und test mit 40 % der Daten, indem du die Liste [.6, .4] an die Methode .randomSplit() übergibst.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Split the data into training and test sets
training, test = piped_data.randomSplit(____)
Code bearbeiten und ausführen