Bagi himpunan data
Setelah semua manipulasi selesai, langkah terakhir sebelum membuat model adalah membagi data!
Latihan ini merupakan bagian dari kursus
Dasar-Dasar PySpark
Instruksi latihan
- Gunakan metode DataFrame
.randomSplit()untuk membagipiped_datamenjadi dua bagian:trainingdengan 60% data, dantestdengan 40% data dengan meneruskan daftar[.6, .4]ke metode.randomSplit().
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Split the data into training and test sets
training, test = piped_data.randomSplit(____)