CommencerCommencez gratuitement

Diviser les données

Maintenant que vous avez effectué toutes vos manipulations, la dernière étape avant la modélisation consiste à diviser les données !

Cet exercice fait partie du cours

<cours>Introduction à PySpark</cours>
Voir le cours

Instructions de l’exercice

  • Utilisez la méthode DataFrame .randomSplit() pour diviser piped_data en deux parties, training avec 60% des données, et test avec 40% des données en passant la liste [.6, .4] à la méthode .randomSplit().

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Split the data into training and test sets
training, test = piped_data.randomSplit(____)
Modifier et exécuter le code