Aan de slagBegin gratis

Splits de data

Er is een dataframe df_examples beschikbaar met de kolommen endword: string, features: vector, outvec: vector en label: int. Je gaat dit splitsen om een training- en testset te krijgen, die je gebruikt om een classifier te trainen en te testen.

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

Bekijk cursus

Oefeninstructies

  • Splits de voorbeelden in train en test met een 80/20-verdeling.
  • Print het aantal trainingsvoorbeelden.
  • Print het aantal testvoorbeelden.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)

# Print the number of training examples
print("Number training: ", ____.____)

# Print the number of test examples
print("Number test: ", ____.____)
Code bewerken en uitvoeren