Diviser les données
Un dataframe df_examples est disponible avec les colonnes endword : string, features : vector, outvec : vector et label : int. Vous allez le diviser pour obtenir un ensemble d’entraînement et un ensemble de test, que vous utiliserez pour entraîner et évaluer un classificateur.
Cet exercice fait partie du cours
Introduction à Spark SQL en Python
Instructions
- Divisez les exemples en train et test avec une répartition 80/20.
- Affichez le nombre d’exemples d’entraînement.
- Affichez le nombre d’exemples de test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)
# Print the number of training examples
print("Number training: ", ____.____)
# Print the number of test examples
print("Number test: ", ____.____)