Veriyi böl
Tüm dönüşümleri tamamladığına göre, modellemeden önceki son adım veriyi bölmek!
Bu egzersiz
PySpark Temelleri
kursunun bir parçasıdırEgzersiz talimatları
- DataFrame yöntemi
.randomSplit()kullanarakpiped_data'yı iki parçaya ayır: listenin[.6, .4]değerlerini.randomSplit()yöntemine geçirerek verinin %60'ını içerentrainingve %40'ını içerentest.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Split the data into training and test sets
training, test = piped_data.randomSplit(____)