Dividi i dati
È disponibile un dataframe df_examples con le colonne endword: string, features: vector, outvec: vector e label: int. Lo dividerai per ottenere un training set e un test set, che userai per addestrare e testare un classificatore.
Questo esercizio fa parte del corso
Introduzione a Spark SQL in Python
Istruzioni dell'esercizio
- Dividi gli esempi in train e test usando uno split 80/20.
- Stampa il numero di esempi di training.
- Stampa il numero di esempi di test.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)
# Print the number of training examples
print("Number training: ", ____.____)
# Print the number of test examples
print("Number test: ", ____.____)