Bagi himpunan data
Setelah semua manipulasi selesai, langkah terakhir sebelum membuat model adalah membagi data!
Latihan ini adalah bagian dari kursus
Dasar-Dasar PySpark
Petunjuk latihan
- Gunakan metode DataFrame
.randomSplit()untuk membagipiped_datamenjadi dua bagian:trainingdengan 60% data, dantestdengan 40% data dengan meneruskan daftar[.6, .4]ke metode.randomSplit().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Split the data into training and test sets
training, test = piped_data.randomSplit(____)