CommencerCommencez gratuitement

Diviser les données

Un dataframe df_examples est disponible avec les colonnes endword : string, features : vector, outvec : vector et label : int. Vous allez le diviser pour obtenir un ensemble d’entraînement et un ensemble de test, que vous utiliserez pour entraîner et évaluer un classificateur.

Cet exercice fait partie du cours

<cours>Introduction à Spark SQL en Python</cours>
Voir le cours

Instructions de l’exercice

  • Divisez les exemples en train et test avec une répartition 80/20.
  • Affichez le nombre d’exemples d’entraînement.
  • Affichez le nombre d’exemples de test.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)

# Print the number of training examples
print("Number training: ", ____.____)

# Print the number of test examples
print("Number test: ", ____.____)
Modifier et exécuter le code