CommencerCommencer gratuitement

Diviser les données

Un dataframe df_examples est disponible avec les colonnes endword : string, features : vector, outvec : vector et label : int. Vous allez le diviser pour obtenir un ensemble d’entraînement et un ensemble de test, que vous utiliserez pour entraîner et évaluer un classificateur.

Cet exercice fait partie du cours

Introduction à Spark SQL en Python

Afficher le cours

Instructions

  • Divisez les exemples en train et test avec une répartition 80/20.
  • Affichez le nombre d’exemples d’entraînement.
  • Affichez le nombre d’exemples de test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)

# Print the number of training examples
print("Number training: ", ____.____)

# Print the number of test examples
print("Number test: ", ____.____)
Modifier et exécuter le code