Diviser les données
Maintenant que vous avez effectué toutes vos manipulations, la dernière étape avant la modélisation consiste à diviser les données !
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Utilisez la méthode DataFrame
.randomSplit()
pour diviserpiped_data
en deux parties,training
avec 60% des données, ettest
avec 40% des données en passant la liste[.6, .4]
à la méthode.randomSplit()
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Split the data into training and test sets
training, test = piped_data.randomSplit(____)