Veriyi böl
Tüm dönüşümleri tamamladığına göre, modellemeden önceki son adım veriyi bölmek!
Bu egzersiz, kursun bir parçasıdır
PySpark Temelleri
Egzersiz talimatları
- DataFrame yöntemi
.randomSplit()kullanarakpiped_data'yı iki parçaya ayır: listenin[.6, .4]değerlerini.randomSplit()yöntemine geçirerek verinin %60'ını içerentrainingve %40'ını içerentest.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Split the data into training and test sets
training, test = piped_data.randomSplit(____)