Aan de slagGa gratis aan de slag

Splits de data

Er is een dataframe df_examples beschikbaar met de kolommen endword: string, features: vector, outvec: vector en label: int. Je gaat dit splitsen om een training- en testset te krijgen, die je gebruikt om een classifier te trainen en te testen.

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

Cursus bekijken

Oefeninstructies

  • Splits de voorbeelden in train en test met een 80/20-verdeling.
  • Print het aantal trainingsvoorbeelden.
  • Print het aantal testvoorbeelden.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)

# Print the number of training examples
print("Number training: ", ____.____)

# Print the number of test examples
print("Number test: ", ____.____)
Code bewerken en uitvoeren