Teile die Daten
Ein DataFrame df_examples ist verfügbar mit den Spalten endword: string, features: vector, outvec: vector und label: int. Du wirst es in Trainings- und Testdaten aufteilen, die du zum Trainieren und Testen eines Klassifikators verwendest.
Diese Übung ist Teil des Kurses
Einführung in Spark SQL mit Python
Anleitung zur Übung
- Teile die Beispiele mit einem 80/20-Split in Train und Test.
- Gib die Anzahl der Trainingsbeispiele aus.
- Gib die Anzahl der Testbeispiele aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)
# Print the number of training examples
print("Number training: ", ____.____)
# Print the number of test examples
print("Number test: ", ____.____)