CommencerCommencer gratuitement

Diviser les données

Maintenant que vous avez effectué toutes vos manipulations, la dernière étape avant la modélisation consiste à diviser les données !

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Utilisez la méthode DataFrame .randomSplit() pour diviser piped_data en deux parties, training avec 60% des données, et test avec 40% des données en passant la liste [.6, .4] à la méthode .randomSplit().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Split the data into training and test sets
training, test = piped_data.randomSplit(____)
Modifier et exécuter le code