IniziaInizia gratis

Dividi i dati

È disponibile un dataframe df_examples con le colonne endword: string, features: vector, outvec: vector e label: int. Lo dividerai per ottenere un training set e un test set, che userai per addestrare e testare un classificatore.

Questo esercizio fa parte del corso

Introduzione a Spark SQL in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Dividi gli esempi in train e test usando uno split 80/20.
  • Stampa il numero di esempi di training.
  • Stampa il numero di esempi di test.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)

# Print the number of training examples
print("Number training: ", ____.____)

# Print the number of test examples
print("Number test: ", ____.____)
Modifica ed esegui il codice