LoslegenKostenlos starten

Daten teilen

Nachdem du alle Manipulationen vorgenommen hast, ist der letzte Schritt vor der Modellerstellung die Aufteilung der Daten!

Diese Übung ist Teil des Kurses

<Kurs>Einführung in PySpark</Kurs>
Kurs ansehen

Übungsanweisungen

  • Verwende die DataFrame-Methode .randomSplit(), um piped_data in zwei Teile zu teilen, training mit 60 % der Daten und test mit 40 % der Daten, indem du die Liste [.6, .4] an die Methode .randomSplit() übergibst.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Split the data into training and test sets
training, test = piped_data.randomSplit(____)
Code bearbeiten und ausführen