Diviser les données
Un dataframe df_examples est disponible avec les colonnes endword : string, features : vector, outvec : vector et label : int. Vous allez le diviser pour obtenir un ensemble d’entraînement et un ensemble de test, que vous utiliserez pour entraîner et évaluer un classificateur.
Cet exercice fait partie du cours
<cours>Introduction à Spark SQL en Python</cours>Instructions de l’exercice
- Divisez les exemples en train et test avec une répartition 80/20.
- Affichez le nombre d’exemples d’entraînement.
- Affichez le nombre d’exemples de test.
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)
# Print the number of training examples
print("Number training: ", ____.____)
# Print the number of test examples
print("Number test: ", ____.____)