Splits de data
Er is een dataframe df_examples beschikbaar met de kolommen endword: string, features: vector, outvec: vector en label: int. Je gaat dit splitsen om een training- en testset te krijgen, die je gebruikt om een classifier te trainen en te testen.
Deze oefening maakt deel uit van de cursus
Introductie tot Spark SQL in Python
Oefeninstructies
- Splits de voorbeelden in train en test met een 80/20-verdeling.
- Print het aantal trainingsvoorbeelden.
- Print het aantal testvoorbeelden.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)
# Print the number of training examples
print("Number training: ", ____.____)
# Print the number of test examples
print("Number test: ", ____.____)