Veriyi böl
df_examples adlı bir dataframe mevcut; sütunları endword: string, features: vector, outvec: vector ve label: int. Bunu, bir sınıflandırıcıyı eğitip test etmek için kullanacağın eğitim ve test kümelerine ayıracaksın.
Bu egzersiz, kursun bir parçasıdır
Python ile Spark SQL'e Giriş
Egzersiz talimatları
- Örnekleri %80/%20 oranıyla eğitim ve test olarak böl.
- Eğitim örneklerinin sayısını yazdır.
- Test örneklerinin sayısını yazdır.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)
# Print the number of training examples
print("Number training: ", ____.____)
# Print the number of test examples
print("Number test: ", ____.____)